# PATENT ABSTRACTS OF JAPAN

(11) Publication number : **2001–092796** 

(43) Date of publication of application: 06.04.2001

(51)Int.CI. G06F 15/167

G06F 12/02

G06F 12/06

G06F 12/08

G06F 12/10

G06F 13/16

G06F 15/16

(21)Application number: 11-263793 (71)Applicant: TAABO DATA LABORATORY

KK

(22) Date of filing: 17.09.1999 (72) Inventor: KOSHO SHINJI

(54) ARCHITECTURE OF PARALLEL COMPUTERS AND INFORMATION PROCESSING UNIT USING THE SAME



#### (57)Abstract:

PROBLEM TO BE SOLVED: To provide a computer architecture capable of realizing an extremely high speed parallel processing in a distributed memory type.

SOLUTION: A computer system 10 is provided with a CPU module 12, plural memory modules 14 each of which has an MPU 36 and a RAM core 34, plural sets of buses 24 to connect a CPU with the memory module and to connect between memory modules and each memory module is operated by an instruction to be given from the CPU 12. A space ID is imparted to a series of data with specified relation, each memory module manages a table at least

including the space ID, a logical address regarding a part of a series of data to be managed by itself, the size of a series of data, judges whether the part of a series of data to be managed by itself concerns in the accepted instruction or not and executes a processing regarding the data stored in the RAM core.

# **LEGAL STATUS**

[Date of request for examination]

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]

[Number of appeal against examiner's decision of rejection]

[Date of requesting appeal against

examiner's decision of rejection]

[Date of extinction of right]

Copyright (C); 1998,2003 Japan Patent Office

#### \* NOTICES \*

JPO and NCIPI are not responsible for any damages caused by the use of this translation.

1. This document has been translated by computer. So the translation may not reflect the original precisely.

2.\*\*\* shows the word which can not be translated.

3.In the drawings, any words are not translated.

### **CLAIMS**

.....

## [Claim(s)]

[Claim 1] The connection between a CPU module, two or more memory modules with which each has MPU and a RAM core, and said CPU and memory module, and/ By or the instruction which is equipped with two or more sets of buses which connect between memory modules, and is given to MPU of each memory module from CPU It is the architecture of the parallel computer constituted so that MPU of each memory module might operate. Space ID is given to a series of data which have predetermined relation. MPU of each memory module The logical address about the part of a series of data which the space ID concerned and self manage at least, It judges whether the part of a series of data which self manages is participating in the instruction which managed the table containing the size of the part concerned, and the size of a series of data, and MPU of each memory module received, the architecture of the parallel computer characterized by being constituted so that reading appearance of the data memorized by the RAM core may be carried out, may send out to a bus, the data given through the bus may be written in a RAM core, and processing required for data may be performed and/or said table may be updated.

[Claim 2] The computer architecture according to claim 1 characterized by having the address comparator with which said MPU compares the space comparator in comparison with the space ID of a series of one or more data with which self manages the space ID given from CPU, and the logical address given from CPU with the logical

address of the part of the data which self manages, and address KARIKYURETA which computes the physical address on a self RAM cell based on the logical address concerned.

[Claim 3] The input in which connection with or [ any of two or more sets of said buses ] is [ that each of said memory module accepts the synchronizing signal for synchronizing a CPU module and other memory modules ] possible, It has the output in which connection with or [ other any of said bus which are groups ] is possible, and said synchronizing signal is followed at least. By connection with said which bus and input The computer architecture according to claim 1 or 2 characterized by being constituted by connection between which bus besides the above, and an output, inputting data so that data can be outputted.

[Claim 4] To each of said bus which are groups, between the input of said CPU module and which memory module, or outputs, and/ The switch for specifying connection between the input of which other memory modules or an output, and the output of the memory module of further others or an input is formed. Or by change—over of said switch The computer architecture according to claim 3 characterized by realizing transfer of data in juxtaposition in each of two or more sets of buses.

[Claim 5] Into said 1st bus which it is in any of the buses of a group, the output of which memory module, the input of which other memory modules connects — having — and said 2nd bus which it is in other any among the buses of a group — being concerned — others — with the output of which memory module The computer architecture according to claim 4 to which the input of which memory module of further others is connected, and transfer of the data in the 1st bus and transfer of the data in the 2nd bus are characterized by going on in juxtaposition.

[Claim 6] The computer architecture according to claim 5 characterized by repeating connection between said buses and memory modules, and forming connection between multistage memory modules.

[Claim 7] Said MPU deletes the specific element in a series of data, and a specific element is inserted into said a series of data. If the instruction which shows that a specific element is added to the tail of a series of data is received A computer architecture given in claim 1 characterized by comparing with the location of the element concerning deletion, insertion, or an addition the field of the data which self manages with reference to a table, and updating the content of said table according to the comparison result concerned thru/or any 1 term of 6.

[Claim 8] A computer architecture given in claim 1 characterized by performing value conversion said whose MPU answers the given instruction, and changes the suffix for

specifying the element in a series of data, and/or gives specific qualification to an element thru/or any 1 term of 7.

[Claim 9] The connection between a CPU module, two or more memory modules with which each has MPU and a RAM core, and said CPU and memory module, and/ By or the instruction which is equipped with two or more sets of buses which connect between memory modules, and is given to MPU of each memory module from CPU It is the information processing unit constituted so that MPU of each memory module might operate. Space ID is given to a series of data which have predetermined relation. MPU of each memory module The logical address about the part of a series of data which the space ID concerned and self manage at least, It judges whether the part of a series of data which self manages is participating in the instruction which managed the table containing the size of the part concerned, and the size of a series of data, and MPU of each memory module received, the information processing unit characterized by being constituted so that reading appearance of the data memorized by the RAM core may be carried out, may send out to a bus, the data given through the bus may be written in a RAM core, and processing required for data may be performed and/or said table may be updated.

[Claim 10] The information processing unit according to claim 9 characterized by constituting said CPU module possible [ the bus of the others which interconnect legacy memory, an input device, and an indicating equipment, and connection ]. [Claim 11] The computer system characterized by having the storage, input unit, and display containing one or more legacy memory connected through an information processing unit according to claim 9, and a CPU module and other buses.

| [Translation done.]  |  |  |
|----------------------|--|--|
|                      |  |  |
| DETAILED DESCRIPTION |  |  |

[Detailed Description of the Invention] [0001]

[Industrial Application] This invention relates to the computer architecture in which general-purpose parallel operation is possible by memory control more suitable for a detail, and high-speed about the architecture of the parallel computer which can realize SIMD (Single Instruction Stream, Multiple Data Stream).

# [0002]

[Description of the Prior Art] A computer is introduced into various locations of the whole society, and large-scale data came to be stored here [ there ] by the end of today when networks including the Internet permeated. In order to process such large-scale data, huge count is required, therefore trying to introduce parallel processing is natural.

[0003] Now, parallel processing architecture is divided roughly into a "shared memory mold" and a "distributed memory type." The former ("shared memory mold") is a method with which two or more processors share one huge room. Since the traffic between a processor group and a shared memory serves as a bottleneck by this method, it is not easy to build a realistic system using the processor exceeding 100. In case the square root of 1 billion floating point variables is calculated by following, the acceleration ratio to a single CPU will call it at most 100 times. Experientially, about 30 times is an upper limit. Each processor has respectively local memory, and the latter ("distributed memory type") combines these, and builds a system. The design of the hardware system which also incorporated hundreds - tens of thousands of processors by this method is possible. Therefore, it is possible to make the acceleration ratio to the single CPU at the time of calculating the square root of the 1 billion above-mentioned floating point variables one 10,000 times the number [hundreds -] of this. However, some technical problems mentioned later exist also in the latter. This application is made to perform the comparison with the conventional technique about a "distributed memory type", adding some considerations first about this method.

# [0004]

[Means for Solving the Problem] [— 1st technical—problem: — the 1st technical problem of division—of—responsibilities management] "a distributed memory type" of a huge array is a problem of division—of—responsibilities management of data. Huge data (since it is generally an array, an array explains henceforth) cannot be held in the local memory which one processor owns, and division—of—responsibilities management is inevitably carried out at two or more local memories. If an efficient and flexible division—of—responsibilities management mechanism is not introduced, it is clear that various failures will be held on the occasion of development and activation of a program.

[0005] [-- 2nd technical-problem: -- the effectiveness of interprocessor communication -- low -- as for access to the array element which other processors own, interprocessor communication is made indispensable although it can access

promptly to the array element on the local memory which self owns, if each processor of distribution memory mold system tends to access a huge array. It is said that this interprocessor communication has extremely low performance, and is cut in 100 clocks also at the lowest compared with the communication link with a local memory. For this reason, at the time of sort implementation, since reference covering the huge array whole region is carried out and interprocessor communication occurs frequently, performance falls extremely.

[0006] Explanation is more concretely added about this trouble. 1999 current and a personal computer are constituted as a "shared memory mold" using CPU of 1 – some. It operates with an about 5 to 6 times [ of a memory bus ] internal clock, that interior is equipped with the automatic parallel execution function or the pipeline processing function, and standard CPU used for this personal computer can process about 1 data with one clock (memory bus). When the personal computer which is a "shared memory mold" performs sorting application of a huge array, demonstrating the multiprocessor system 100 times the performance of a "distributed memory type" which requires one clock about one data and one data takes 100 clocks (memory bus) for this reason is also considered.

[0007] The 3rd technical problem of [supply "a distributed memory type" of the technical-problem:program which is the 3rd] is a problem how to supply a program to many processors. Dramatically, a separate program is loaded to many processors and they take a great quantity of loads for creation of a program, compile, and distribution by the method (MIMD:Multiple Instruction Stream, Multiple Data Stream) which carries out coordination actuation of the whole. On the other hand, by the method (SIMD:Single Instruction Stream, Multiple Data Stream) which operates many processors by the same program, the degree of freedom of a program decreases and the situation where the program which brings about the result of a request cannot be developed is also assumed.

[0008] This invention offers the approach and computer architecture which solve the above 1st of a "distributed memory type" thru/or the technical problem of 3. The technical problem of the 1st "division-of-responsibilities management of a huge array" can solve arrangement (physical address) of each element of an array by carrying out division-of-responsibilities management by the approach with each unific processor module. By this technique, the need for a garbage collection can be lost and the tacit processing (un-explicit) assignment of each processor indispensable when insertion and deletion of an array element are completed with a number clock and realizes SIMD can also be assigned. This approach is explained like after by the

concept of "multi-space memory."

[0009] the 2nd effectiveness of "interprocessor communication — low — " — a technical problem can switch each interprocessor according to the processing which it be going to attain, it be the sequence that the data of the defined class be able to be defined, for every connection path, it schedule—ize a communication link so that the capacity of a bus may be use in the one direction to about 100% by carry out a continuation transfer, and it can solve it by realize huge pipeline processing simultaneously. The back will illustrate the structure—of—a—system approach which completes the sort of 1 billion lines in about 1 second by the realistic system design, in order to prove the effectiveness. This is high—speed 10,000 or more times compared with the equipment of the known maximum high speed. This approach is explained as a "recombination bus" technique like after.

[0010] The technical problem of the 3rd "supply of a program" is solvable by adopting a SIMD method. Although the tacit processing (un-explicit) assignment of each processor is determined how in the case of SIMD or? is the biggest problem, this processing assignment can be automatically determined by the above-mentioned "multi-space memory" technique, and even if it is SIMD, the degree of freedom of a program can be held. That is, this invention outputs and inputs the element under array memorized by various memory with a single instruction, and aims at offering the computer architecture which can realize high-speed remarkable parallel processing in a distributed memory type.

### [0011]

[Means for Solving the Problem] The connection between two or more memory modules with which, as for the object of this invention, a CPU module and each have MPU and a RAM core, and said CPU and memory module, and/ By or the instruction which is equipped with two or more sets of buses which connect between memory modules, and is given to MPU of each memory module from CPU It is the architecture of the parallel computer constituted so that MPU of each memory module might operate. Space ID is given to a series of data which have predetermined relation. MPU of each memory module The logical address about the part of a series of data which the space ID concerned and self manage at least, It judges whether the part of a series of data which self manages is participating in the instruction which managed the table containing the size of the part concerned, and the size of a series of data, and MPU of each memory module received. The data memorized by the RAM core are read, it sends out to a bus, the data given through the bus are written in a RAM core, and processing required for data is performed. And/ Or it is attained by the

architecture of the parallel computer characterized by being constituted so that said table may be updated.

[0012] According to this invention, in order to grasp a series of data using Space ID, even if a series of data concerned are alloted by many memory modules, MPU of each memory module can recognize a series of data concerned certainly. Moreover, since the memory module grasps on the table the part which a series of data and self manage, it can perform predetermined processing with reference to the table according to acceptance of an instruction. Thereby, the parallel processing in each MPU based on a single instruction is realizable.

[0013] In the desirable embodiment of this invention, MPU has the address comparator which compares the space comparator in comparison with the space ID of a series of one or more data with which self manages the space ID given from CPU, and the logical address given from CPU with the logical address of the part of the data which self manages, and address KARIKYURETA which computes the physical address on a self RAM cell based on the logical address concerned. These comparators and KARIKYURETA may consist of hardware, and may be realized by the program of MPU as software.

[0014] Moreover, it sets in the desirable embodiment of this invention. The input in which connection with or [ any of two or more sets of said buses ] is [ that each of a memory module accepts the synchronizing signal for synchronizing a CPU module and other memory modules ] possible, said — while it has two or more outputs in which connection with or [ other any of the bus of a group ] is possible and data are inputted by connection with said which bus and input at least according to said synchronizing signal — said — others — it is constituted by connection between which bus and an output so that data can be outputted. According to the gestalt of this operation, according to a synchronizing signal, the data output from a memory module and the data input to a memory module are made, and control of connection of a bus enables it to realize parallel processing appropriately.

[0015] It is more desirable that the switch for specifying connection between the input of said CPU module and which memory module or an output and/or between the input of which [ other ] memory module or an output, and the output of the memory module of further others or an input is formed in each of two or more sets of buses, and transfer of data is realized by change—over of a switch in juxtaposition in each of two or more sets of buses. This becomes possible to use two or more sets of buses for validity more, and it becomes possible to raise parallelism more.

[0016] In the still more desirable embodiment of this invention Into the 1st bus which

it is in any of two or more sets of buses, the output of which memory module, the input of which other memory modules connects — having — and said 2nd bus which it is in other any among the buses of a group — being concerned — others — with the output of which memory module The input of which memory module of further others is connected, and transfer of the data in the 1st bus and transfer of the data in the 2nd bus advance in juxtaposition. Thus, according to the embodiment of a computer, a CPU module and a memory module enable it to realize pipeline processing. It is more desirable to repeat connection between a bus and a memory module and to form connection between multistage memory modules.

[0017] It sets in the another desirable embodiment of this invention, MPU deletes the specific element in a series of data, and a specific element is inserted into said a series of data. If the instruction which shows that a specific element is added to the tail of a series of data is received, the field of the data which self manages will be compared with the location of the element concerning deletion, insertion, or an addition with reference to a table, and the content of said table will be updated according to the comparison result concerned. That is, in MPU, it becomes possible to realize deletion, insertion, and an addition of an element by updating the table which self manages, namely, carrying out RIMAPPINGU.

[0018] In still more nearly another embodiment of this invention, value conversion whose MPU answers the given instruction, and changes the suffix for specifying the element in a series of data, and/or gives specific qualification to an element is performed. Moreover, two or more memory modules with which, as for the object of this invention, a CPU module and each have MPU and a RAM core, The connection with said CPU and memory module, and/ By or the instruction which is equipped with two or more sets of buses which connect between memory modules, and is given to MPU of each memory module from CPU It is the information processing unit constituted so that MPU of each memory module might operate. Space ID is given to a series of data which have predetermined relation. MPU of each memory module The logical address about the part of a series of data which the space ID concerned and self manage at least, It judges whether the part of a series of data which self manages is participating in the instruction which managed the table containing the size of the part concerned, and the size of a series of data, and MPU of each memory module received. it is attained by the information processing unit characterized by being constituted so that reading appearance of the data memorized by the RAM core may be carried out, may send out to a bus, the data given through the bus may be written in a RAM core, and processing required for data may be performed and/or said table

may be updated. For example, said unit may be formed in the single circuit board, and the CPU module may be constituted possible [ the bus of the others which interconnect legacy memory, an input device and an indicating equipment, and connection ].

[0019] Furthermore, the object of this invention is attained by the computer system characterized by having the storage, input unit, and display containing one or more legacy memory connected through the above-mentioned information processing unit, and a CPU module and other buses.

[0020]

[Embodiment of the Invention] With reference to an accompanying drawing, explanation is added per gestalt of operation of this invention below a [hardware configuration]. Drawing 1 is a block diagram which shows the configuration of the computer system concerning the gestalt of operation of this invention. As shown in drawing 1 R> 1, a computer system 10 The CPU module 12 which realizes parallel operation by single instruction, the memory module 14-1 which memorizes various data required for parallel operation, 14-2, 14-3, and --, It has the fixed memory 16 which memorizes a required program and data, the input devices 18, such as a keyboard and a mouse, the indicating equipment 20 which consists of CRT etc., and the legacy memory 22 the data of various formats etc. are remembered to be. Moreover, in a bus 24-1, 24-2, and --, transfer of the information between the circuit elements which a switch 28-1, 28-2, 28-3, --, etc. were arranged by the contact with the CPU module 12 and each memory module 14, and were chosen as it is possible. Moreover, the switch 30-1 for making connection and connection of a bus, 30-2, and -- are prepared between adjoining memory modules between the CPU module 12 and the memory module 14-1.

[0021] Between the CPU module 12 and the memory module 14, two or more buses 24–1, 24–2, 24–3, 24–4, and — are prepared. Therefore, transfer of data etc. is possible for between the CPU module 12 and a memory module 14 and between memory modules by the above–mentioned bus. Moreover, the control signal line 25 is formed between CPU12 and a memory module 14, and the instruction emitted from CPU12 is transmitted to all the memory modules 14.

[0022] Furthermore, the local bus 26 is arranged between CPU12 and other components, and transfer of data etc. is possible for for example, fixed memory 16, an input device 18, etc. also among these. CPU12 reads the program memorized by other storage (not shown) like RAM which was memorized by fixed memory 16 or was connected on the bus 26, and performs control of the switches 28 and 30 besides

transfer of data including sending out of the instruction to the memory module 14 shown below etc. according to this program. Moreover, CPU12 can receive the data of the various formats memorized by the legacy memory 22 according to a program, can change them into a series of data (array) which can process the data of this format by the system which consists of CPU12, a memory module 14, and a bus 24, and can also store these in each memory module 14.

[0023] Drawing 2 is a block diagram which shows the outline of each memory module 14. As shown in drawing 2, a memory module 14 The clock buffer 32 which accepts synchronizing signals, such as a clock given from the CPU module 12, The space ID mentioned later, the element number of data, etc. are grasped as the RAM core 34 which memorizes data. MPU36 which controls data read-out from the data writing and RAM core to the RAM core 34 based on Space ID and an element number when the instruction from CPU12 etc. is received, It has I/O38 which receives the data from either of the buses, and supplies the RAM core 34, and/or sends out the data from the RAM core 34 to which bus. In the gestalt of this operation, through the control signal line 25, a memory module 14 accepts the instruction from CPU, MPU36 can answer this instruction, and can read the data of the RAM core 34, and it can write data in the RAM core 34, or can perform predetermined processing now to data. Moreover, a data input and data output are performed based on synchronizing signals, such as a clock given to the clock buffer 32, through the data access to the RAM core 34, and I/O. [0024] In this invention, it is possible that a computer system 10 is a system of a memory share mold so that clearly from drawing 1 and drawing 2. Moreover, each memory module 14 performs processing in juxtaposition by giving an instruction to each memory module 14 through the control signal line 25 so that it may mention later. Moreover, the data output to a bus, the data input from a bus, etc. are performed based on a predetermined synchronizing signal. Therefore, it is possible that this computer system 10 is making the gestalt of SIMD.

[0025] [the outline of a function realized] — before adding explanation more detailed than per [ which has such a configuration ] computer system 10, the outline of a function realized according to this computer system 10 is explained briefly.

(1) In a multi-space memory book description, multi-space memory means the room assigned in order to access room based on Space ID and the address. Thereby, even if a series of data are alloted by many processors, each processor can separate and recognize this certainly. In the conventional room, even if it might assign the field according to individual for every process, assigning graduation space to every [ a series of ] variables (an array, structure, etc.) was not performed. Therefore, such

conventional room is hereafter called "single room." In the system of single room, since data are accessed only using the address, a series of data which have relation were not able to be separated, and it has not recognized. For this reason, even if parallel processing was actually possible, that propriety was not able to be judged in many cases. Moreover, the garbage collection needed to be performed in order to secure the hold location of a series of data concerned, when making a series of new data hold in a certain single room.

[0026] On the other hand, in this invention, Space ID was introduced into room and the same ID is given to it about a series of data. Moreover, in a memory module 14, the space ID about the data currently held at the own RAM core 34 can be grasped, and, thereby, each [ memory module 14 / itself ] can determine the right or wrong of self actuation by referring to the space ID of the data accessed now. Moreover, since each memory module relates with Space ID and all or some of a series of data can be held, a certain data of a series of can be divided and stored in two or more memory modules 14, and, thereby, a garbage collection can be made unnecessary.

[0027] For example, as shown in <u>drawing 3</u>, in single room, the case where a series of data "A", a series of data "B", and — are held is considered. For example, total memory size assumes that total of the size of the data of a up Norikazu ream is 30 words by 32 words here. Since it is dotted with the data of these single strings all over space, although intact memory size is 12 words, the size of a series of actually storable data is limited to 3 words. For this reason, a garbage collection must be performed when a series of new data which have the size exceeding 3 words should be held. As shown in one of these, and <u>drawing 4</u>, Space ID is given to each of a series of data in this invention. These are related with Space ID and memorized by one or more memory modules 14. Therefore, it becomes possible to make in agreement intact size and the size which can be held.

[0028] (2) In a memory module and this invention, each memory module 14 had MPU36, and grasp each element number of a series of data which self besides the above-mentioned space ID holds. Therefore, after receiving the instruction from CPU12, the data which MPU36 should access according to an instruction can judge whether it is what is held in the RAM core 34 of self, and can determine the right or wrong of the need as access. Furthermore, each memory module 14 is able to determine the assignment range of the tacit processing in the instruction in SIMD from the range of the suffix of the array element stored in the RAM core 34 of self. [0029] Moreover, in this invention, a memory module 14 can perform ADORESURI mapping now. For example, the element of a position is deleted when inserting a

specific element in the position of a certain array, as shown in <u>drawing 5</u>. Also when adding a predetermined element to the tail of an array, in the gestalt of this operation, MPU36 can realize these at a juxtaposition—and high speed by performing ADORESURI mapping in each holding the element relevant to the array concerned of a memory module. Furthermore, as shown in <u>drawing 6</u>, also when giving qualification to an array element (value), in each holding the array element related (for example, when adding "1" to each value) of a memory module, MPU36 can perform juxtaposition processing required for a high speed.

[0030] Moreover, in a memory module 14, MPU36 can grasp each size of the data which should be memorized with the RAM core 34, and can memorize these with the compressed gestalt. For example, when a data value actual when the data of an integral value should be held with a certain memory module 14 cannot take only the value to "0" thru/or "3", MPU36 prepares only 2 bits for each data. In order to express one integer, when 32 bits is being used, for the communication link between a memory module 14 and CPU12, MPU36 changes data format, and CPU12 should be delivered [just] between CPUs12 and received. This becomes possible to use the RAM core 34 without futility. Moreover, also about the data with which die length like a character string differs, a data length can be changed similarly and it can memorize now.

[0031] Furthermore, in a memory module 14, a specific value (for example, "0") can be set now to the data related with the predetermined space ID, and the data to which the element number of the predetermined range was given. This becomes possible [performing processing of initialization at a high speed] within a memory module 14. Moreover, in a memory module 14, it is possible to search the value in a certain specific data (array) or to check the range of a subscript.

[0032] (3) Pipeline processing is realized by setting to rearrangeable bus this invention, and CPU's12 turning on / turning off selectively a switch 28–1, 28–2, — and a switch 30–1, 30–2, and —, and specifying the memory module 14 which should deliver and receive data. As shown in <u>drawing 7</u>, for example, the data outputted from certain memory module 14–i other memory module 14–j — giving — and — being concerned — others, when the data outputted from memory module 14–j should be transmitted to memory module 14–k of further others CPU12 sets up the condition of each switch so that bus 24–m may be assigned for memory module 14–i and 14–j and bus 24–n may be assigned for memory module 14–j and 14–k.

[0033] Furthermore, not only when connection between single memory modules realizes, but these pipeline processing can be realized by connection between two or

more of a series of memory modules (memory module group). According to the processing which it is going to attain, between each memory module can be switched, and a communication link can be schedule—ized so that the capacity of a bus can be used for an one direction about 100% by carrying out a continuation transfer in the sequence that the data of the defined class were able to be defined, for every connection path. Thereby, the lowness of the performance of interprocessor communication which was the biggest problem of the parallel processing system of a distributed memory type is cancelable. Thus, in the constituted computer system 10, explanation is added per actuation of the system in the concrete configuration of multi–space memory, and multi–space memory.

[0034] [Multi-space memory] drawing 8 is drawing for explaining the structure of a memory module 14 under multi-space memory. As shown in drawing 8 (a), a space ID managed table is prepared in the RAM core 34 in a memory module 14. Thereby, MPU36 of a memory module 14 becomes possible [grasping required information, such as the space ID of the data which self holds, ]. As shown in drawing 8 (b), the logic starting address of a data constellation under the management of Space ID and CPU for every data constellation which self holds, the size of the field where the data constellation was assigned, the physical starting address in the RAM core 34, the total size of a series of data which have the space ID concerned, and the access-restriction flag that shows access restriction are stored in the space ID managed table. in the gestalt of this operation, reading appearance of the access-restriction flag is carried out, and a chisel is possible for it — only (R) and writing are possible — (R) and R/W are possible — three conditions of (RW) can be shown now.

[0035] When the data constellation which has a certain space ID is given, MPU36 of a memory module 14 finds out one or more fields which should hold the data constellation concerned into the RAM core 34, divides a data constellation into remaining as it is or 2 or more, and holds it in the field concerned. In this case, the logic starting address and allotment area size in the RAM core which held data actually with the given space ID, a logic starting address, total size, and an access–restriction flag are also memorized by the space ID managed table. Drawing 8 (c) is drawing showing the data in the RAM core 36 according to the space ID managed table by drawing 8 (b).

[0036] Explanation is added to below per [ to [the approximate account of memory access], thus the constituted memory module 14 ] access. As shown in <u>drawing 9</u>, CPU12 transmits a required instruction (for example, writing and read-out of data) to

all the memory modules 14 through the control signal line 25 first at Space ID and the logical address, and a list. In each memory module 14, this is answered, the space comparator 52 formed in MPU36 compares Space ID with the space ID currently held on the space ID managed table of self, and it judges whether self holds the same thing, and a address comparator 54 makes the same judgment about the logical address. Subsequently, when it is judged that the data with which MPU36 of a memory module 14 serves as a processing object by the instruction at the RAM core 34 of self are held, with reference to a space ID managed table, address KARIKYURETA 56 computes the physical address in the RAM core 34, and specifies the data used as a processing object. Thus, after data are specified, MPU36 performs processing (for example, writing and read—out of data) according to the instruction given from CPU12, and when required, it transmits data to CPU12 (refer to drawing 9 (c)).

[0037] [— more concrete: of multi-space memory of operation — it explains below per [ to the condition that the specific element was deleted from the condition that] (this is hereafter called an "array" by the case.), for example, a series of data with a certain space ID, such as deletion of the element under array, was held in one or more memory modules 14 ] a series of actuation. In certain memory module 14–i, the data constellation belonging to Space ID "010" is stored as shown in drawing 10 (a), and in memory module 14–j of \*\*, the data constellation belonging to Space ID "010" considers the case where it is stored as shown in drawing 10 (b). For example, in memory module 14–i, it turns out that the data from the logical address "0" to "59" are memorized from the physical address "100" of the RAM core. It seems that in this case, an apparent array is shown in drawing 10 (c).

[0038] Thus, when a certain array is stored in two or more memory modules, it states below per processing at the time of deleting a specific element. The case where the instruction of deleting the element "50–59" of Space ID "010" through the control signal line 25 to each memory module 14–1, 14–2, and — is emitted from CPU12 is considered. Drawing 11 and drawing 13 are flow charts which show the processing performed with each memory module which received the instruction of deleting the element of the predetermined range in a certain space ID.

[0039] MPU36 of each memory module receives the instruction given through the control signal line 25, interprets the content (step 1101), investigates the "space ID" in an instruction (step 1102), and judges whether it relates to the space ID of the data which the RAM core 34 of self holds (step 1103). When judged as a no (No) at step 1103, the size of the range which ends processing, the writing of the data constellation about the space ID concerned of MPU36 has become possible with

reference to the space ID managed table on the other hand when [ that ] judged yes (Yes), or had the deletion demand judges whether it is smaller than total size (step 1104). When it is judged by the check that it is abnormal (it is yes (Yes) at step 1105), MPU36 notifies that the error arose through the control signal line 25. On the other hand, in [ that ] being normal, MPU36 compares the range of which deletion was required by the instruction with the range of the element held with the RAM core 34 of self (step 1107), and performs (step 1108) and various processings by the comparison result.

[0040] First, rather than the self range of the element to hold, when the range with a deletion demand is back (refer to "A" and drawing 12 (a) of drawing 11 ), as for MPU36, it does not perform processing at all (step 1109 reference). When the range with a deletion demand is lapped and located behind the element which self holds (refer to "B" and drawing 12 (b) of drawing 11 ), MPU36 updates allotment area size (step 1110). That is, allotment area size is changed so that from the head (arrow-head 1201 reference) of the deletion demand range to the tail (arrow-head 1202 reference) of the range of the element held with the RAM core 34 of self may serve as garbage. [0041] On the other hand, rather than the self range of the element to hold, the range with a deletion demand updates a logic starting address so that it may reduce by the size in which the deletion demand of a logic starting address had MPU36, in being the front (refer to "C" and drawing 12 (c) of drawing 11 ) (step 1111). furthermore, rather than the range of the self element to hold, when it is the front and only a part laps (refer to "D" and drawing 12 (d) of drawing 11 ), the range with a deletion demand MPU36 changes a physical starting address into the physical address corresponding to the value "+1" of the tail of the range with a deletion demand while changing a logic starting address into the value of the head of the range with a deletion demand (step 1112). Subsequently, MPU36 updates allotment area size (step 1113).

[0042] Moreover, when the range with a deletion demand includes the range of the element which self holds (refer to "E" and drawing 12 (e) of drawing 11), MPU36 deletes the various data about the space ID concerned from a space ID managed table (step 1114 of drawing 13). When the range which had the deletion demand in the last is included by the range of the element which self holds (refer to "F" and drawing 12 (f) of drawing 11), a space ID managed table is divided into two, and the thing about the various data about back is generated from various data concerning the front from the deletion range, and the deletion range (step 1115). Or MPU36 may carry out time of day of the garbage collection about self RAM34.

[0043] Thus, a single instruction (deletion instruction of a certain space ID) is

answered from CPU12, each memory module 14 operates, and processing required of a predetermined memory module is performed in juxtaposition. Next, when adding a certain element to the tail of an array which has a certain space ID, it explains briefly per. Drawing 14 is a flow chart which shows the processing performed with each memory module which received the instruction of adding an element to the tail of the array of a certain space ID. Step 1401 of drawing 14 - step 1406 are equivalent to step 1101 of drawing 11 - step 1106. Subsequently, it judges whether MPU36 of each memory module 14 should memorize the element which should be added to the RAM core 34 of self (step 1407). MPU36 can realize this by referring to the space ID managed table of self. When judged yes (Yes) at step 1407, the required value in a space ID managed table is updated (for example, allotment area size is changed according to the number of elements to add), and, subsequently the element which should be added to the predetermined field in a RAM cell is written in (step 1409). Or the various values of a space ID managed table are generated, and the element which should be added may be written in the field in a corresponding RAM cell. [0044] Subsequently, MPU36 updates the value of "the total size" relevant to the space ID concerned in a space ID managed table (step 1410). Also when judged as a no (No) in step 1407, the value of "the total size" to which it relates in a space ID managed table is updated. Also when adding an element to the location of the arbitration under array, processing of a deletion demand and an abbreviation EQC is performed with each memory module 14.

[0045] When combining two or more arrays, or dividing a single array into two or more arrays as shown in <u>drawing 15</u> (b) as shown in [more concrete association of multi-space memory of: array of operation and division], next <u>drawing 15</u> (a), explanation is added per. In the computer system 10 concerning the gestalt of this operation, the array which has a certain space ID (it sets to <u>drawing 15</u> (a) and is Space ID "100"), and/or the array which has other space ID (it sets to <u>drawing 15</u> (b) and is Space ID "100") may be held in the RAM core of a single memory module, or may be held in the RAM core of two or more memory modules. <u>Drawing 16</u> is drawing showing the condition that these were held into the memory module by the array and list which have the array which has Space ID "10", and Space ID "11." In <u>drawing 16</u> (a), the array 1501 whose space ID of the is "10" and whose size of each element is 10 words is shown. The element under this array 1501 is held in a memory module 14–1 thru/or 14–x. Moreover, in <u>drawing 16</u> (b), the array 1510 whose space ID of the is "11" and whose size of each element is 10 words is shown. The element of this array 1510 is also held in a memory module 14–1 thru/or 14–x.

[0046] If CPU12 minds the control signal line 25 and emits the instruction of a purport [ Space / of "space ID "10" / the array and Space ID "the array of 11" is combined"], each memory module 14 will receive this and will judge whether it is an instruction about the space ID of the data holding self. These processings are the same as that of step 1101 of drawing 11 thru/or step 1106, and abbreviation. Subsequently, when the space ID of the data holding self relates to the instruction, MPU of a memory module realizes association of an array according to the following procedures. Each memory module 14 related when shown in above-mentioned drawing 16 updates the value of the space ID managed table about Space ID ''11'', when the element of the both sides of Space ID "10" and Space ID "11" is held. More specifically with reference to the value of "the total size" about Space ID "10", the logic starting address is computed again (for example, the sign 1701 of drawing 17, 1702 reference). Moreover, each related memory module updates the value of "the total size" in a space ID managed table to the thing corresponding to the size which considered two arrays (for example, sign 1703 reference of drawing 17). Drawing 17 is the array 1710 acquired by doing in this way, and drawing showing the space ID managed table (for example, a sign 1711, 1712 reference) in each memory module 14-1 to 14-x.

[0047] Drawing 18 is drawing showing an example divided into the array which has Space ID "10" for the array which has Space ID "10", and the array which has Space ID "11." The decomposition point of the array which has Space ID "10" shown in drawing 18 R> 8 (a) is set, and while considering the element ahead located from the decomposition point as the array of Space ID "10", the element located more back than the decomposition point is considered as the array of Space ID "11." [0048] Also in this case, CPU12 borders the array of "space ID "10" on the decomposition point through the control signal line 25. When the instruction of a purport [ Space / of Space ID "10" / the array and Space ID "it decomposes into the array of 11""] is emitted, each memory module 14 Processing which carries out an abbreviation response is performed to step 1101 thru/or step 1106 of drawing 11, and the thing (the example of drawing 18 memory module 14-1-14-x) relevant to an instruction performs predetermined processing among memory modules. For example, MPU36 updates the value about total size among the space management ID tables about Space ID "010" while creating the various values in the space ID managed table about Space ID "011", when the element located more back than the decomposition point is held. Moreover, also when only the element ahead located from the decomposition point is held, MPU36 of a memory module updates the value about

total size among the space management ID tables about Space ID "010." <u>Drawing 19</u> is the arrays 1901 and 1902 acquired by doing in this way, and drawing showing the space ID managed table (for example, signs 1911 and 1912 and 1913 reference) in each memory module 14–1 to 14–x.

[0049] Explanation is simply added about the parallel copy which used the rearrangeable bus depending on the case [more concrete: parallel copy of multi-space memory of operation], next under multi-space memory. For example, according to the single instruction from CPU12, as shown in drawing 20, the parallel copy of the data to other memory module groups [group / 140 / one / memory module] 141 is realizable. The following modes can be considered to a parallel copy. [0050] (1) When a single memory module is contained in one memory module group 140 and two or more memory modules are contained in the memory module group of another side.

(2) When two or more memory modules are contained in one memory module group 140 and two or more memory modules are contained in it also at the memory module group of another side.

[0051] In the former, MPU36 of a memory module 14 which has held the element of a copied material receives the instruction (for example, command "copy the predetermined element under array which has a certain space ID as an array of space 8, 9, and ID 10") given through the control signal line 25 from CPU12, and outputs the element specified from the RAM core 34 on a predetermined bus. On the other hand, the MPU36 used as a copy place also answers acceptance of the same instruction, and while receiving the element outputted from the bus and memorizing this to the predetermined field of the RAM core 34, the space ID managed table of self is updated. [0052] In the latter, it is possible to give the data from the memory module in one memory module group 140 to the memory module with which the memory module group 141 of another side corresponds using two or more buses, respectively. In this case, CPU12 should just control a switch 28 and a switch 30 possible [ transfer of the data between predetermined memory modules ].

[0053] [— more concrete: of multi-space memory of operation — the suffix inputted by subscript conversion is changed using the multi-space memory which hides and starts the gestalt of] book operations, such as updating, by the suffix [ finishing / conversion ], an array can be specified and a value can be further embellished in an array element. A certain processing is completed, and when subscript conversion and value qualification become unnecessary by committing, MPU of each memory module can cancel subscript conversion in an instant by rewriting the space ID managed table

about the array concerned, and performing RIMAPPINGU. Since it is necessary to update the element memorized by the RAM core with the value qualification actual on the other hand itself, time amount is required. Therefore, in each memory module, a changed flag is formed, and after the element with which value qualification was reflected memorizes to a RAM core actually, it is set to "1" in the flag corresponding to the element concerned. If it does in this way, when this is "1" with reference to a conversion flag in a certain process, it is not necessary to pass through value qualification, and, on the other hand, the Bayh whose conversion flag is "0" can know easily that it is necessary to pass through value qualification. Therefore, a commitment is substantially realizable in an instant. Furthermore, if the multi-space memory concerning the gestalt of this operation is used, as shown in drawing 21, it will become possible by forming a changed flag and referring to this changed flag also about value qualification of a nested structure, to get to know the existence of the need of passing through value qualification.

[0054] [— utilization [ of multi–space memory and a rearrangeable bus ]: — in the gestalt of sort (the 1)] book operation, it becomes possible by using multi–space memory and a rearrangeable bus to perform sorting application in juxtaposition based on the single instruction from CPU12. Hereafter, explanation is added per [ in the gestalt of this operation ] juxtaposition–sorting application. Drawing 23 and drawing 24 are drawings for explaining the flow of the sorting application concerning the gestalt of this operation. By this sorting application, it can roughly divide, can divide into the processing (decision of the number of existence, and calculation of accumulating totals) shown in drawing 23, and the processing (transfer of a record number) shown in drawing 24, and can think.

[0055] In order to realize sorting application concerning the gestalt of this operation, in the gestalt of this operation, the pointer to the value list constituted so that the pointer value which shows the storing location of a corresponding value list by considering the record-number array which stored the record number, the value list which stored the actual item value about a certain item, and the value (record number) from a record-number array as an input might be outputted uses. That is, the pointer value to the corresponding value list of a location from a record number is referred to, and a actual item value is specified according to the pointer value (refer to drawing 25). First, if CPU12 gives a required instruction to each memory module 14 through the control signal line 25, processing of an abbreviation EQC will be performed by step 1101 thru/or step 1106 of drawing 11 with each memory module. Moreover, according to the advice from a memory module which stored the record number among related

memory modules, CPU12 controls switches 28 and 30 to connect to a certain bus (for "the 1st bus" to be called) the output of a series of memory modules (1st memory module group 2301) which stored the record number.

[0056] Subsequently, according to the advice from a memory module which stored the pointer array to a value list, CPU12 controls switches 28 and 30 to connect to a certain bus (for "the 2nd bus" to be called) the output of a series of memory modules (2nd memory module group 2302) which stored the pointer array to the above—mentioned value list. Furthermore, in other memory modules (3rd memory module group 2303) of a series of, the field for the "number array of existence" of the same size (the same number of elements) as the pointer to a value list is secured, and each element is initialized by "0." Furthermore, the input of the 3rd memory module group is connected with the 2nd bus of the above.

[0057] Subsequently, a record number is sent out to the 1st bus sequentially from the head of a record-number array. In the 1st memory module group 2301, MPU36 of each memory module detects the timing to which self outputs data to the 1st bus with reference to a space ID managed table, and this is realized by sending out a predetermined record number. A record number is given to each of the memory module which constitutes the 2nd memory module group 2302 through the 1st bus. MPU36 of each memory module detects that the record number relevant to the pointer array to the value list which self manages was inputted with reference to the space ID managed table of self, and outputs the pointer value corresponding to the input concerned to the 2nd bus.

[0058] Pointer value is given to each of the memory module which constitutes the joule group of the 3rd memory through the 2nd bus. MPU36 of each memory module detects that the pointer value relevant to the pointer array of the value list which self manages was given with reference to the space ID managed table of self, and increments the element of the location corresponding to pointer value in the number array of existence. By repeating this actuation, it can know what times it is pointed out to the item value by the record number (does it point?). A fixed field is secured to a series of memory modules in order to create the array which stores the sorted record number, after a series of processings for the above—mentioned number array of existence are completed. This memory module of a series of is called the 4th memory module group 2304. CPU12 controls switches 28 and 30 to connect the output of the 3rd memory module group used for previous processing, and the input of the 4th memory module group through a bus (for "the 3rd bus" to be called).

[0059] Sorting application is performed after such preparation is completed. More

specifically, a record number is given to the memory module which constitutes the 2nd memory module group through the 1st bus from the head of a record-number array. In the predetermined memory module in the 2nd memory module group, MPU36 answers acceptance of a record number and transmits pointer value to the 3rd module group through the 2nd bus. Subsequently, in a predetermined memory module, MPU36 determines the storing location of a record number with reference to the related number array of existence among the 3rd memory module group based on pointer value. Thereby, \*\* is sent out for a record number and its storing location to the 3rd bus from the memory module concerned. Therefore, in the predetermined memory module of the 4th memory module group, MPU36 arranges a record number in a predetermined storing location. By repeating this processing, the array (sign 2410 of drawing 24) of the record number sorted by the 4th memory module group can be created.

[0060] For example, processing shown in drawing 23 can be made into pipeline processing. That is, in the 1st bus, when a certain record number "p" is transmitted, in the 2nd bus, the pointer value "P (p-1)" about a record number "p-1" may be transmitted. Moreover, it is possible to make into pipeline processing similarly processing shown in drawing 24. Also in this case, in the 1st bus, when a certain record number "p" is transmitted, in the 2nd bus, the pointer value "P (p-1)" about a record number "p-1" may be transmitted. Furthermore, in the 3rd bus, the storing location about a record number "p-1" may be transmitted to the same timing. [0061] The following results were obtained about the processing time of such pipeline processing. First, the 1st bus thru/or 4th bus assumed that it was 128 bits, and thought that there is 12.8GB/second of transfer capability, respectively, and a record number and pointer value were 32 binary integers, respectively about processing of drawing 23, respectively. In order to perform pipeline processing now although 4 billion bytes of transfer occurs in the above-mentioned processing when record count is 1 billion pieces, it turned out that it completes in 4G / 12.8G= 0.3125 seconds. Although similarly 8 billion bytes of transfer will occur when record count is 1 billion pieces if the same transfer capability and data size are assumed about processing of drawing 24, according to the gestalt of this operation, processing can be completed in 8G / 12.8G= 0.625 seconds by activation of pipeline processing. [0062] [-- utilization [ of multi-space memory and a rearrangeable bus ]: -explanation is simply added per [ by sort (the 2)], next other technique ] sorting application. Also in this sorting application, the input of the 2nd memory module group 2602 which consists of a memory module which the output of the 1st memory module

group (sign 2601 reference of <u>drawing 26</u>) which consists of a memory module which stored the record–number array first, and the 1st bus were connected, and stored the pointer array to a value list is connected with the 1st bus. Thereby, the transfer of the output of the 1st memory module group 2601 is attained through the 1st bus at the 2nd memory module group 2602. While the field of the array which has number same on the other hand as the 2nd memory module group 2602 of the space ID is secured to the 3rd memory module group 2603, the output of the 2nd memory module group 2602 and the input of the 3rd memory module group are connected through the 2nd bus.

[0063] Subsequently, in the 1st memory module group 2601, if MPU36 of a memory module which holds a certain record number sends out the record number concerned to the 1st bus, in the predetermined memory module of the 2nd memory MOJU group 2602, MPU36 computes Space ID and sends out a record number and Space ID to the 2nd bus from the pointer value which answers and corresponds to this acceptance. [0064] In the 3rd memory module group, based on the space ID concerned and a record number, the predetermined memory module 36 starts and the record number given to the tail of an array which has the space ID concerned is arranged. After performing such processing about all record numbers, in the 3rd memory module group, MPU36 of each memory module performs processing for combining the array which self has. High-speed sorting application is realizable with such technique. [0065] [-- utilization [ of multi-space memory and a rearrangeable bus ]: -- retrieval (the 1)] -- in the gestalt of this operation, retrieval processing can be performed in juxtaposition by using multi-space memory and a rearrangeable bus again based on the single instruction from CPU12. Drawing 27 and drawing 28 are drawings for explaining the flow of the retrieval processing concerning the gestalt of this operation. For this retrieval processing, a record-number array, the propriety flag array to a value list mentioned [ which mention later and value-lists / which lists and pointer-arranges ] later are used. Therefore, a value is referred to in order of a record number, pointer value, and an item value like drawing 25 also in this example. [0066] First, if CPU12 gives a required instruction to each memory module 14 through the control signal line 25, processing of an abbreviation EQC will be performed by step 1101 thru/or step 1106 of drawing 11 R> 1 with each memory module. Moreover, according to the advice from a memory module which stored the value list among related memory modules, CPU12 controls switches 28 and 30 to connect to a certain bus (for "the 1st bus" to be called) the output of a series of memory modules (1st memory module group 2701) which stored the value list. Furthermore, the field for the propriety flag array as the thing of a value list with the same number of iodines is secured to a series of memory modules (2nd memory module group 2702), and MPU36 of each memory module belonging to the 2nd memory module 2702 concerned initializes the element of the field concerned to "0."

[0067] Subsequently, the input of the 2nd memory module group 2702 is connected to the 1st bus. Subsequently, according to the retrieval conditions given from CPU12, MPU36 sets to "1" the value to which a propriety flag array corresponds in each memory module of the 2nd memory module group with reference to the location of the item value corresponding to the retrieval conditions under value list. For example, what is necessary is just to use a split half method etc., if retrieval conditions are range. Moreover, what is necessary is just to judge the propriety for every element, if it is other conditions. A search is performed after such processing is completed. First, while connecting to the 1st bus the output of a series of memory modules (3rd memory module group 2703) which stored the record–number array, CPU12 controls switches 28 and 30 to connect to the 1st bus the input of a series of memory modules (4th memory module group 2704) which stored the pointer array to a value list. Moreover, CPU12 controls switches 28 and 30 to connect the input of the 2nd memory module group 2702 with the 2nd bus for the output of the 4th memory module group 2704.

[0068] Furthermore, the field for the array which has the same number of elements as the number of elements of a record number is secured to a series of memory modules (the 5th memory module 2705), and CPU12 controls switches 28 and 30 so that the input and the output of the 2nd memory module group 2702 are connected through the 3rd bus. After such processing, a record number is sent out to the 1st bus sequentially from the head of a record–number array. In the 3rd memory module group 2703, MPU36 of each memory module detects the timing to which self outputs data to the 1st bus with reference to a space ID managed table, and this is realized by sending out a predetermined record number.

[0069] A record number is given to each of the memory module which constitutes the 4th memory module group 2704 through the 1st bus. MPU36 of each memory module detects that the record number relevant to the pointer array to the value list which self manages was inputted with reference to the space ID managed table of self, and outputs the received record number and the pointer value corresponding to the input concerned to the 2nd bus. Pointer value is given to each of the memory module which constitutes the joule group of the 3rd memory through the 2nd bus with a record number. MPU36 of each memory module judges whether the propriety flag with which

it detects that the pointer value which shows the same location as the location of the propriety flag array which self manages was given with reference to the space ID managed table of self, and the pointer value concerned shows it is "0", or it is "1." Subsequently, when a propriety flag is "1", a related record number is given to the 5th memory module group 2705 through the 3rd bus.

[0070] In the 5th memory module group 2705, MPU36 of each memory module detects that the record number which shows the same location as the location of the array for hit information storing which self manages was given with reference to the space ID managed table of self, and sets the element of the location to "1." Retrieval is completed by taking out the element which is "1" in the array for hit information storing repeatedly about a predetermined record number about such processing. [0071] The processing which also explained the above-mentioned retrieval processing with reference to drawing 27, and the processing explained with reference to drawing 28 are realizable in pipeline processing like sorting application, respectively. The following results were obtained about the processing time of the pipeline processing in retrieval processing. I thought that the transfer capability of a bus and the number of bits of each element were the same as that of sorting application. In order to perform pipeline processing although 8 billion bytes of transfer occurs in the above-mentioned retrieval processing when record count is 1 billion pieces, it turned out that it completes in 8G / 12.8G= 0.624 seconds.

[0072] Furthermore, if this retrieval processing is used, the retrieval of two or more items which combined AND, OR, or NOT is also realizable. What is necessary is to take lessons from each item, to more specifically create the array for hit information storing, and just to perform logical operation between these array elements. For example, in AND of two items, or OR retrieval, a transfer (1 billion bytes) of the array element for hit information storing is performed. Therefore, the processing time can understand a required thing only for (10G/8) / 12.8G= 0.098 seconds.

[0073] In addition, what is necessary is just to connect to a column the memory module group which performs two retrieval processings in AND retrieval, in order to attain improvement in the speed further. Moreover, if an array is arranged so that the 4th memory module group and the 2nd memory module group can be constituted from two or more same memory modules, a bottleneck can be canceled and this will become possible [ obtaining twice as many abbreviation / as this / processing speed ]. [0074] Various modification is possible for this invention within the limits of invention indicated by the claim, without being limited to the gestalt of the above operation, and it cannot be overemphasized that it is that by which they are also included within the

limits of this invention. For example, in the gestalt of said operation, although it has applied to the computer system, it is not limited to this, and this invention can also be applied to a computer board connectable with a personal computer etc. In this case, in drawing 1, CPU12, the memory unit 14, and bus 24 grade are carried on a board, and this constitutes the information processing unit in this invention.

[0075] Moreover, the number of the groups of the bus which connects between CPU12 and memory modules 14 and/or between memory modules 14 is not limited to the gestalt of said operation, and can be suitably determined in consideration of the magnitude of the circuit board in which a computer system is carried, the number of bits of each bus, etc. Moreover, in the gestalt of said operation, the switch 28 for specifying connection with I/O and bus of a memory module and the switch 30 from which a bus can be cut between CPU and a memory module and between memory modules are formed. forming a switch 30 — for example, while using a certain bus (24 to bus 4 reference of drawing 1) for data transfer with the CPU module 12 and a memory module 14–1, it can be simultaneously used for the data transfer between a memory module 14–2 and a memory module 14–3 (in this case, what is necessary is just to turn OFF a switch 30–5). Therefore, it is possible to use a bus for validity more. However, when the group of a bus can enlarge a number enough, or when there are comparatively few memory modules, it is not necessary to necessarily form a switch 30.

[0076] Moreover, in this description, although it indicated that the instruction from CPU12 was given through the control signal line 25, it cannot be overemphasized that various control signals, such as a clock besides an instruction, for each memory module to synchronize and operate are given through the control signal line 25, and the predetermined signal (for example, an error signal and the signal which shows data acceptance) from each memory module to CPU12 is given. Furthermore, in this description, even if the function of one means is realized by two or more physical means, the function of two or more means may be realized by one physical means. [0077]

[Effect of the Invention] The element under array memorized by various memory with a single instruction is outputted and inputted, and, according to this invention, it becomes possible in a distributed memory type to offer the computer architecture which can realize high-speed remarkable parallel processing.

| [Translation done.]                                                                                                                                                                                                                                                                                                         |
|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| TECHNICAL FIELD                                                                                                                                                                                                                                                                                                             |
| [Industrial Application] This invention relates to the computer architecture in which general-purpose parallel operation is possible by memory control more suitable for a detail, and high-speed about the architecture of the parallel computer which can realize SIMD (Single Instruction Stream, Multiple Data Stream). |
| [Translation done.]                                                                                                                                                                                                                                                                                                         |
|                                                                                                                                                                                                                                                                                                                             |

#### **PRIOR ART**

[Description of the Prior Art] A computer is introduced into various locations of the whole society, and large-scale data came to be stored here [ there ] by the end of today when networks including the Internet permeated. In order to process such large-scale data, huge count is required, therefore trying to introduce parallel processing is natural.

[0003] Now, parallel processing architecture is divided roughly into a "shared memory mold" and a "distributed memory type." The former ("shared memory mold") is a method with which two or more processors share one huge room. Since the traffic between a processor group and a shared memory serves as a bottleneck by this method, it is not easy to build a realistic system using the processor exceeding 100. In case the square root of 1 billion floating point variables is calculated by following, the acceleration ratio to a single CPU will call it at most 100 times. Experientially, about 30 times is an upper limit. Each processor has respectively local memory, and the latter ("distributed memory type") combines these, and builds a system. The design of the hardware system which also incorporated hundreds – tens of thousands of processors by this method is possible. Therefore, it is possible to make the acceleration ratio to the single CPU at the time of calculating the square root of the 1 billion above–mentioned floating point variables one 10,000 times the number [ hundreds – ] of this. However, some technical problems mentioned later exist also in

| the latter. This application is made to perform the comparison with the conventional technique about a "distributed memory type", adding some considerations first about this method.                                                                                                                                 |
|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| [Translation done.]                                                                                                                                                                                                                                                                                                   |
| EFFECT OF THE INVENTION                                                                                                                                                                                                                                                                                               |
| [Effect of the Invention] The element under array memorized by various memory with a single instruction is outputted and inputted, and, according to this invention, it becomes possible in a distributed memory type to offer the computer architecture which can realize high-speed remarkable parallel processing. |
| [Translation done.]                                                                                                                                                                                                                                                                                                   |
| MEANS                                                                                                                                                                                                                                                                                                                 |

[Means for Solving the Problem] [— 1st technical—problem: — the 1st technical problem of division—of—responsibilities management] "a distributed memory type" of a huge array is a problem of division—of—responsibilities management of data. Huge data (since it is generally an array, an array explains henceforth) cannot be held in the local memory which one processor owns, and division—of—responsibilities management is inevitably carried out at two or more local memories. If an efficient and flexible division—of—responsibilities management mechanism is not introduced, it is clear that various failures will be held on the occasion of development and activation of a program.

[0005] [-- 2nd technical-problem: -- the effectiveness of interprocessor communication -- low -- as for access to the array element which other processors own, interprocessor communication is made indispensable although it can access promptly to the array element on the local memory which self owns, if each processor

of] distribution memory mold system tends to access a huge array. It is said that this interprocessor communication has extremely low performance, and is cut in 100 clocks also at the lowest compared with the communication link with a local memory. For this reason, at the time of sort implementation, since reference covering the huge array whole region is carried out and interprocessor communication occurs frequently, performance falls extremely.

[0006] Explanation is more concretely added about this trouble. 1999 current and a personal computer are constituted as a "shared memory mold" using CPU of 1 – some. It operates with an about 5 to 6 times [ of a memory bus ] internal clock, that interior is equipped with the automatic parallel execution function or the pipeline processing function, and standard CPU used for this personal computer can process about 1 data with one clock (memory bus). When the personal computer which is a "shared memory mold" performs sorting application of a huge array, demonstrating the multiprocessor system 100 times the performance of a "distributed memory type" which requires one clock about one data and one data takes 100 clocks (memory bus) for this reason is also considered.

[0007] The 3rd technical problem of [supply "a distributed memory type" of the technical-problem:program which is the 3rd] is a problem how to supply a program to many processors. Dramatically, a separate program is loaded to many processors and they take a great quantity of loads for creation of a program, compile, and distribution by the method (MIMD:Multiple Instruction Stream, Multiple Data Stream) which carries out coordination actuation of the whole. On the other hand, by the method (SIMD:Single Instruction Stream, Multiple Data Stream) which operates many processors by the same program, the degree of freedom of a program decreases and the situation where the program which brings about the result of a request cannot be developed is also assumed.

[0008] This invention offers the approach and computer architecture which solve the above 1st of a "distributed memory type" thru/or the technical problem of 3. The technical problem of the 1st "division-of-responsibilities management of a huge array" can solve arrangement (physical address) of each element of an array by carrying out division-of-responsibilities management by the approach with each unific processor module. By this technique, the need for a garbage collection can be lost and the tacit processing (un-explicit) assignment of each processor indispensable when insertion and deletion of an array element are completed with a number clock and realizes SIMD can also be assigned. This approach is explained like after by the concept of "multi-space memory."

[0009] the 2nd effectiveness of "interprocessor communication — low — " — a technical problem can switch each interprocessor according to the processing which it be going to attain, it be the sequence that the data of the defined class be able to be defined, for every connection path, it schedule—ize a communication link so that the capacity of a bus may be use in the one direction to about 100% by carry out a continuation transfer, and it can solve it by realize huge pipeline processing simultaneously. The back will illustrate the structure—of—a—system approach which completes the sort of 1 billion lines in about 1 second by the realistic system design, in order to prove the effectiveness. This is high—speed 10,000 or more times compared with the equipment of the known maximum high speed. This approach is explained as a "recombination bus" technique like after.

[0010] The technical problem of the 3rd "supply of a program" is solvable by adopting a SIMD method. Although the tacit processing (un-explicit) assignment of each processor is determined how in the case of SIMD or ? is the biggest problem, this processing assignment can be automatically determined by the above-mentioned "multi-space memory" technique, and even if it is SIMD, the degree of freedom of a program can be held. That is, this invention outputs and inputs the element under array memorized by various memory with a single instruction, and aims at offering the computer architecture which can realize high-speed remarkable parallel processing in a distributed memory type.

| Translation done.]      |
|-------------------------|
|                         |
| SESCRIPTION OF DRAWINGS |

[Brief Description of the Drawings]

[Drawing 1] Drawing 1 is a block diagram which shows the configuration of the computer system concerning the gestalt of operation of this invention.

[Drawing 2] Drawing 2 is a block diagram which shows the outline of the memory module concerning the gestalt of this operation.

[Drawing 3] Drawing 3 is drawing showing arrangement of a series of data in single room.

[Drawing 4] Drawing 4 is drawing showing arrangement of a series of data in the

multi-space memory concerning this invention.

[Drawing 5] Drawing 5 is drawing for explaining ADORESURI mapping in the gestalt of this operation.

[Drawing 6] Drawing 6 is drawing for explaining the value qualification in the gestalt of this operation.

[Drawing 7] Drawing 7 is drawing showing the outline of the pipeline processing between the memory modules concerning the gestalt of this operation.

[Drawing 8] Drawing 8 is drawing for explaining the structure of a memory module 14 under the multi-space memory concerning the gestalt of this operation.

[Drawing 9] Drawing 9 is drawing for explaining the structure of a memory module 14 under multi-space memory.

[Drawing 10] Drawing 10 is drawing for explaining the structure of a memory module 14 under multi-space memory.

[Drawing 11] Drawing 11 is a flow chart which shows the processing performed with each memory module which received the instruction of deleting the element of the predetermined range in a certain space ID.

[Drawing 12] Drawing 12 is drawing showing relation with arrangement of the element deleted and the element currently held with the memory module.

[Drawing 13] Drawing 13 is a flow chart which shows the processing performed with each memory module which received the instruction of deleting the element of the predetermined range in a certain space ID.

[Drawing 14] Drawing 14 is a flow chart which shows the processing performed with each memory module which received the instruction of adding an element to the tail of the array of a certain space ID.

[Drawing 15] Drawing 15 is drawing for explaining association of the array concerning the gestalt of this operation, and division of an array.

[Drawing 16] Drawing 16 is drawing showing the condition that these were held into the memory module by the array and list which have the array which has Space ID "10", and Space ID "11" in the gestalt of this operation.

[Drawing 17] Drawing 17 is the array acquired by association of an array, and drawing showing the space ID managed table in each memory module in the gestalt of this operation.

[Drawing 18] Drawing 18 is drawing showing an example divided into the array which has Space ID "10" for the array which has Space ID "10", and the array which has Space ID "11" in the gestalt of this operation.

[Drawing 19] Drawing 19 is the array acquired by division of an array, and drawing

showing the space ID managed table in each memory module in the gestalt of this operation.

[Drawing 20] Drawing 20 is drawing showing the parallel copy of the gestalt of this operation, or the data to other memory module groups [ group / one / to cut / memory module ].

[Drawing 21] Drawing 21 is drawing for explaining utilization of the changed flag concerning the gestalt of this operation.

[Drawing 22] Drawing 22 is drawing for explaining utilization of the changed flag concerning the gestalt of this operation.

[Drawing 23] Drawing 23 is drawing for explaining the flow of the sorting application concerning the gestalt of this operation.

[Drawing 24] Drawing 24 is drawing for explaining the flow of the sorting application concerning the gestalt of this operation.

[Drawing 25] Drawing 25 is drawing showing the reference procedure of data until an item value is specified from a record number in the gestalt of this operation.

[Drawing 26] Drawing 26 is drawing for explaining the flow of other sorting application concerning the gestalt of this operation.

[Drawing 27] Drawing 27 is drawing for explaining the flow of the retrieval processing concerning the gestalt of this operation.

[Drawing 28] Drawing 28 is drawing for explaining the flow of the retrieval processing concerning the gestalt of this operation.

[Description of Notations]

10 Computer System

12 CPU Module

14 Memory Module

16 Fixed Memory

18 Input Unit

20 Display

22 Legacy Memory

24 Bus

25 Control Signal Line

26 Bus

28 30 Switch

32 Clock Buffer

34 RAM Core

**36 MPU** 

| 38 I/O |  |  |  |
|--------|--|--|--|
|        |  |  |  |
|        |  |  |  |
|        |  |  |  |

[Translation done.]

#### (19)日本国特許庁(JP)

# (12) 公開特許公報(A)

(11)特許出願公開番号 特開2001-92796

(P2001-92796A)

(43)公開日 平成13年4月6日(2001.4.6)

|        | 識別記号                    |                                                                                | FΙ                                                          |                                                                                                           |          |                                                                                                                                                                                    | Ť                                                                                                                                                                                                                                           | -7]-ド(参考)                                                                                                                                                                                                                                                                                             |
|--------|-------------------------|--------------------------------------------------------------------------------|-------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------|----------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 15/167 |                         |                                                                                | G 0                                                         | 6 F                                                                                                       | 15/167   |                                                                                                                                                                                    | В                                                                                                                                                                                                                                           | 5 B 0 0 5                                                                                                                                                                                                                                                                                             |
| 12/02  | 5 1 0                   |                                                                                |                                                             |                                                                                                           | 12/02    |                                                                                                                                                                                    | 5 1 0 A                                                                                                                                                                                                                                     | 5 B 0 4 5                                                                                                                                                                                                                                                                                             |
| 12/06  | 5 3 0                   |                                                                                |                                                             |                                                                                                           | 12/06    |                                                                                                                                                                                    | 530D                                                                                                                                                                                                                                        | 5 B 0 6 0                                                                                                                                                                                                                                                                                             |
| 12/08  |                         |                                                                                |                                                             |                                                                                                           | 12/08    |                                                                                                                                                                                    | Н                                                                                                                                                                                                                                           |                                                                                                                                                                                                                                                                                                       |
| 12/10  |                         |                                                                                |                                                             |                                                                                                           | 12/10    |                                                                                                                                                                                    | H                                                                                                                                                                                                                                           |                                                                                                                                                                                                                                                                                                       |
|        |                         | 審査請求                                                                           | 未請求                                                         | 請才                                                                                                        | マダス で    | OL                                                                                                                                                                                 | (全 23 頁)                                                                                                                                                                                                                                    | 最終頁に続く                                                                                                                                                                                                                                                                                                |
| 号      | <b>特願平</b> 11-263793    |                                                                                | (71)                                                        | 出願。                                                                                                       |          | _                                                                                                                                                                                  | ラボラトリー                                                                                                                                                                                                                                      | 有限会社                                                                                                                                                                                                                                                                                                  |
|        | 平成11年9月17日(1999.9       | ). 17)                                                                         |                                                             |                                                                                                           |          |                                                                                                                                                                                    |                                                                                                                                                                                                                                             | -12 SPKĽ                                                                                                                                                                                                                                                                                              |
|        |                         |                                                                                | (72)                                                        | 発明                                                                                                        | 者 古庄     | 晋—                                                                                                                                                                                 |                                                                                                                                                                                                                                             |                                                                                                                                                                                                                                                                                                       |
|        |                         |                                                                                |                                                             |                                                                                                           | 神奈川      | 県横浜                                                                                                                                                                                | 市神奈川区松                                                                                                                                                                                                                                      | 見町4丁目1101                                                                                                                                                                                                                                                                                             |
|        |                         |                                                                                |                                                             |                                                                                                           | 番地7      | コート                                                                                                                                                                                | ハウス菊名80                                                                                                                                                                                                                                     | 4 <del>号</del>                                                                                                                                                                                                                                                                                        |
|        |                         |                                                                                | (74)                                                        | 代理                                                                                                        | 人 100103 | 632                                                                                                                                                                                |                                                                                                                                                                                                                                             |                                                                                                                                                                                                                                                                                                       |
|        |                         |                                                                                |                                                             |                                                                                                           | 弁理士      | 窪田                                                                                                                                                                                 | 英一郎(                                                                                                                                                                                                                                        | 外1名)                                                                                                                                                                                                                                                                                                  |
|        |                         |                                                                                | F 9                                                         | 一人                                                                                                        | (参考) 5B  | 005 KK                                                                                                                                                                             | 14 KK22 MM32                                                                                                                                                                                                                                |                                                                                                                                                                                                                                                                                                       |
|        |                         |                                                                                |                                                             |                                                                                                           | 5B       | 045 BB                                                                                                                                                                             | 12 GG14                                                                                                                                                                                                                                     |                                                                                                                                                                                                                                                                                                       |
|        |                         |                                                                                |                                                             |                                                                                                           | 5B       | 060 MB                                                                                                                                                                             | 04                                                                                                                                                                                                                                          |                                                                                                                                                                                                                                                                                                       |
|        |                         |                                                                                |                                                             |                                                                                                           |          |                                                                                                                                                                                    |                                                                                                                                                                                                                                             |                                                                                                                                                                                                                                                                                                       |
|        | 12/02<br>12/06<br>12/08 | 15/167<br>12/02 5 1 0<br>12/06 5 3 0<br>12/08<br>12/10<br><b>特願平</b> 11-263793 | 15/167<br>12/02 5 1 0<br>12/06 5 3 0<br>12/08<br>12/10 審査請求 | 15/167 G 0 12/02 5 1 0 12/06 5 3 0 12/08 12/10 審査請求 未請求  → 特願平11-263793 (71) 平成11年9月17日(1999. 9. 17) (72) | 15/167   | 15/167 12/02 5 1 0 12/06 12/06 5 3 0 12/08 12/10 審査請求 未請求 請求項の数11  特願平11-263793 (71)出願人 599074 ターボ 平成11年9月17日(1999.9.17) 東京都 ルディ (72)発明者 古庄 神奈川 番地7 (74)代理人 100103 弁理士 Fターム(参考) 5B | 15/167 12/02 5 1 0 12/02 12/06 5 3 0 12/06 12/08 12/10 12/10 審査請求 未請求 請求項の数11 OL 特願平11-263793 (71)出願人 599074648 ターボデータ 平成11年9月17日(1999.9.17) 東京都台東区 ルディング60 (72)発明者 古庄 晋二 神奈川県横浜 番地7コート (74)代理人 100103632 弁理士 窪田 Fターム(参考) 58005 KK 58045 BB | 15/167   B   12/02   5 1 0   12/02   5 1 0 A   12/06   5 3 0 D   12/08   H   12/10   H   接査請求 未請求 請求項の数11 OL (全 23 頁)   特願平11-263793   (71)出願人 599074648   ターボデータラボラトリー・平成11年9月17日(1999.9.17)   東京都台東区松が谷 1 - 9 ルディング604号   (72)発明者 古庄 晋二 神奈川県横浜市神奈川区松 番地7コートハウス菊名80 (74)代理人 100103632   弁理士 窪田 英一郎 ( |

## (54) 【発明の名称】 並列コンピュータのアーキテクチャおよびこのアーキテクチャを利用した情報処理ユニット

#### (57)【要約】

【課題】 分散メモリー型において、著しく高速な並列 処理を実現可能なコンピュータアーキテクチャを提供す る

【解決手段】 コンピュータシステム10は、CPUモジュール12と、それぞれがMPU36およびRAMコア34とを有する複数のメモリモジュール14と、CPUとメモリモジュールとの接続やメモリモジュール間の接続をなす複数組のバス24とを備え、CPU12から与えられるインストラクションにより、各メモリモジュールが作動する。所定の関連を有する一連のデータには、空間IDが付与され、各メモリモジュールが、少なくとも、当該空間ID、自己が管理する一連のデータの部分に関する論理アドレス、一連のデータのサイズを含むテーブルを管理し、かつ、受理したインストラクションに、自己が管理する一連のデータの部分が関与しているか否かを判断して、RAMコアに記憶されたデータに関する処理を実行する。



#### 【特許請求の範囲】

【請求項1】 CPUモジュールと、それぞれがMPU およびRAMコアとを有する複数のメモリモジュール と、前記CPUとメモリモジュールとの接続、および/または、メモリモジュール間の接続をなす複数組のバスとを備え、CPUから各メモリモジュールのMPUに与えられるインストラクションにより、各メモリモジュールのMPUが作動するように構成された並列コンピュータのアーキテクチャであって、

所定の関連を有する一連のデータに、空間 I Dが付与さ 10 れ、各メモリモジュールのMP Uが、少なくとも、当該空間 I D、自己が管理する一連のデータの部分に関する論理アドレス、当該部分のサイズ、および、一連のデータのサイズを含むテーブルを管理し、かつ、

各メモリモジュールのMPUが、受理したインストラクションに、自己が管理する一連のデータの部分が関与しているか否かを判断して、RAMコアに記憶されたデータを読み出してバスに送出し、バスを介して与えられたデータをRAMコアに書き込み、データに必要な処理を施し、および/または、前記テーブルを更新するように 20 構成されたことを特徴とする並列コンピュータのアーキテクチャ。

【請求項2】 前記MPUが、CPUから与えられた空間IDを、自己が管理する1以上の一連のデータの空間IDと比較する空間コンパレータと、

CPUから与えられた論理アドレスと、自己が管理する データの部分の論理アドレスとを比較するアドレスコン パレータと、

当該論理アドレスに基づき、自己のRAMセル上の物理 アドレスを算出するアドレスカリキュレータとを有する 30 ことを特徴とする請求項1に記載のコンピュータアーキ テクチャ。

【請求項3】 前記メモリモジュールの各々が、CPU モジュールおよび他のメモリモジュールとの同期をなす ための同期信号を受け入れ、かつ、

前記複数組のバスの何れかとの接続が可能な入力と、前記複数組のバスの他の何れかとの接続が可能な出力を備え、少なくとも、前記同期信号にしたがって、前記何れかのバスと入力との接続により、データを入力しつつ、前記他の何れかのバスと出力との接続により、データを 40 出力できるように構成されたことを特徴とする請求項1 または2に記載のコンピュータアーキテクチャ。

【請求項4】 前記複数組のバスの各々に、前記CPU モジュールと何れかのメモリモジュールの入力または出力との間、および/または、他の何れかのメモリモジュールの入力または出力と、さらに他のメモリモジュール の出力または入力との間の接続を規定するためのスイッチが設けられ、

前記スイッチの切換により、複数組のバスの各々において、並列的にデータの授受が実現されることを特徴とす 50

る請求項3に記載のコンピュータアーキテクチャ。

【請求項5】 前記複数組のバスのうちの何れかである第1のバスに、何れかのメモリモジュールの出力と、他の何れかのメモリモジュールの入力とが接続され、かつ、前記複数組のバスのうち、他の何れかである第2のバスに、当該他の何れかのメモリモジュールの出力と、さらに他の何れかのメモリモジュールの入力とが接続され、第1のバスにおけるデータの授受と、第2のバスにおけるデータの授受と、第2のバスにおけるデータの授受と、第2のバスにおけるデータの授受が並列的に進行することを特徴とする請求項4に記載のコンピュータアーキテクチャ。

【請求項6】 前記バスとメモリモジュールとの間の接続を繰り返して、多段のメモリモジュール間の接続を形成することを特徴とする請求項5に記載のコンピュータアーキテクチャ。

【請求項7】 前記MPUが、一連のデータ中の特定の要素を削除し、前記一連のデータ中に特定の要素を挿入し、或いは、一連のデータの末尾に特定の要素を追加することを示すインストラクションを受理すると、テーブルを参照して、自己の管理するデータの領域と、削除、挿入或いは追加にかかる要素の位置とを比較して、当該比較結果に応じて、前記テーブルの内容を更新することを特徴とする請求項1ないし6の何れか一項に記載のコンピュータアーキテクチャ。

【請求項8】 前記MPUが、与えられたインストラクションに応答して、一連のデータ中の要素を特定するための添え字を変換し、および/または、要素に特定の修飾を与える値変換を実行することを特徴とする請求項1ないし7の何れか一項に記載のコンピュータアーキテクチャ

【請求項9】 CPUモジュールと、それぞれがMPU およびRAMコアとを有する複数のメモリモジュール と、前記CPUとメモリモジュールとの接続、および/ または、メモリモジュール間の接続をなす複数組のバス とを備え、CPUから各メモリモジュールのMPUに与 えられるインストラクションにより、各メモリモジュー ルのMPUが作動するように構成された情報処理ユニットであって、

所定の関連を有する一連のデータに、空間 I Dが付与され、各メモリモジュールのMP Uが、少なくとも、当該空間 I D、自己が管理する一連のデータの部分に関する論理アドレス、当該部分のサイズ、および、一連のデータのサイズを含むテーブルを管理し、かつ、

各メモリモジュールのMPUが、受理したインストラクションに、自己が管理する一連のデータの部分が関与しているか否かを判断して、RAMコアに記憶されたデータを読み出してバスに送出し、バスを介して与えられたデータをRAMコアに書き込み、データに必要な処理を施し、および/または、前記テーブルを更新するように構成されたことを特徴とする情報処理ユニット。

0 【請求項10】 前記CPUモジュールが、レガシーメ

3

モリ、入力装置および表示装置を相互接続する他のバス と連結可能に構成されたことを特徴とする請求項9に記 載の情報処理ユニット。

【請求項11】 請求項9に記載の情報処理ユニットと、CPUモジュールと他のバスを介して連結された1以上のレガシーメモリを含む記憶装置、入力装置および表示装置とを有することを特徴とするコンピュータシステム。

## 【発明の詳細な説明】

## [0001]

【産業上の技術分野】本発明は、SIMD (Single Instruction Stream, Multiple Data Stream)を実現可能な並列コンピュータのアーキテクチャに関し、より詳細には、適切かつ高速なメモリ制御により、汎用的な並列演算が可能なコンピュータアーキテクチャに関する。

### [0002]

【従来の技術】社会全体のさまざまな場所にコンピュータが導入され、インターネットをはじめとするネットワークが浸透した今日では、そこここで、大規模なデータが蓄積されるようになった。このような大規模データを 20 処理するには、膨大な計算が必要で、そのために並列処理を導入しようと試みるのは自然である。

【0003】さて、並列処理アーキテクチャは「共有メ モリ型」と「分散メモリ型」に大別される。前者(「共 有メモリ型」)は、複数のプロセッサが1つの巨大なメ モリ空間を共有する方式である。この方式では、プロセ ッサ群と共有メモリ間のトラフィックがボトルネックと なるので、百を越えるブロセッサを用いて現実的なシス テムを構築することは容易ではない。したがって、例え ば10億個の浮動小数点変数の平方根を計算する際、単 30 一CPUに対する加速比は、せいぜい100倍というこ とになる。経験的には、30倍程度が上限である。後者 (「分散メモリ型」)は、各プロセッサがそれぞれロー カルなメモリを持ち、これらを結合してシステムを構築 する。この方式では、数百~数万ものプロセッサを組み 込んだハードウェアシステムの設計が可能である。した がって、上記10億個の浮動小数点変数の平方根を計算 する際の単一CPUに対する加速比を、数百~数万倍と することが可能である。しかしながら、後者において も、後述するいくつかの課題が存在する。本出願は、 「分散メモリ型」に関するものであり、この方式につい」 て最初に多少の考察を加えながら従来技術との比較を行

## [0004]

うことにする。

【課題を解決するための手段】[第1の課題:巨大配列の分掌管理]「分散メモリ型」の第1の課題は、データの分掌管理の問題である。巨大なデータ(一般的には配列なので、以降、配列で説明する)は、1つのプロセッサの所有するローカルメモリに収容できるものではなく、必然的に複数のローカルメモリに分掌管理される。

効率的かつ柔軟な分掌管理メカニズムを導入しないと、 プログラムの開発および実行に際してさまざまな障害を 抱え込むことになることは明らかである。

【0005】[第2の課題:プロセッサ間通信の効率の低さ]分散メモリ型システムの各プロセッサが、巨大配列にアクセスしようとすると、自己の所有するローカルメモリ上の配列要素に対しては速やかにアクセスできるものの、他のプロセッサが所有する配列要素へのアクセスはプロセッサ間通信を必須とする。このプロセッサ間通信はローカルメモリとの通信に比べ、極端にバフォーマンスが低く、最低でも100クロックかかると言われている。このため、ソート実施時には、巨大配列全域にわたる参照が実施され、プロセッサ間通信が多発するため、パフォーマンスが極端に低下する。

【0006】この問題点につき、より具体的に説明を加える。1999年現在、パソコンは、1~数個のCPUを用いて、「共有メモリ型」として構成されている。このパソコンに使用される標準的なCPUは、メモリバスの5~6倍程度の内部クロックで動作し、その内部に自動的な並列実行機能やパイプライン処理機能が装備されており、およそ1データを1クロック(メモリバス)で処理できる。「共有メモリ型」であるパソコンにて巨大配列のソート処理を行う場合、1データについて1クロックを要し、このため、1データに100クロック(メモリバス)を要する、「分散メモリ型」のマルチプロセッサシステムの100倍のパフォーマンスを発揮することも考えられる。

【0007】[第3の課題:プログラムの供給]「分散メモリ型」の第3の課題は、多数のプロセッサにどうやってプログラムを供給するか、という問題である。非常に多数のプロセッサに、別々のプログラムをロードし、全体を協調動作させる方式(MIMD:Multiple Instruction Stream, Multiple Data Stream)では、プログラムの作成、コンパイル、配信のために多大な負荷を要する。その一方、多数のプロセッサを同一のプログラムで動作させる方式(SIMD:Single Instruction Stream, Multiple Data Stream)では、プログラムの自由度が減少し、所望の結果をもたらすプログラムが開発できない事態も想定される。

40 【0008】本発明は、「分散メモリ型」の上記第1ないし3の課題を解決する方法およびコンピュータアーキテクチャを提供する。第1の「巨大配列の分掌管理」の課題は、配列の各要素の配置(物理アドレス)を、各プロセッサモジュールが統一的な方法で分掌管理することで解決できる。この手法により、ガーベージコレクションの必要性が無くなり、配列要素の挿入・削除が数クロックで完了し、SIMDを実現する上で欠かせない各プロセッサの暗黙の(非明示的)処理分担を割り付けることもできる。この方法は、後ほど「多空間メモリ」という概念で説明される。

【0009】第2の「プロセッサ間通信の効率の低さ」の課題は、達成しようとする処理に応じて各プロセッサ間をつなぎ替え、各接続経路毎に、定められた種類のデータを、定められた順番で、1方向に連続転送することで、バスの能力を100%近くまで使用できるよう通信をスケジュール化し、同時に巨大パイプライン処理を実現することで解決できる。その有効性を実証するため、後ほど、現実的なシステム設計で、10億行のソートを1秒程度で完了するシステムの構成方法を例示するであるう。これは、既知の最高速の装置に比べて、1万倍以 10上高速である。この方法は、後ほど「組替えバス」技術として説明される。

【0010】第3の「プログラムの供給」の課題は、S IMD方式を採用することで解決できる。SIMDの場合は、各プロセッサの暗黙の(非明示的)処理分担をどうやって決定するか?が最大の問題であるが、前述の「多空間メモリ」技術にてこの処理分担が自動的に決定でき、SIMDであってもプログラムの自由度を保持することができる。つまり、本発明は、分散メモリー型において、単一命令により種々のメモリーに記憶された配 20 列中の要素を入出力し、著しく高速な並列処理を実現可能なコンピュータアーキテクチャを提供することを目的とする。

### [0011]

【課題を解決するための手段】本発明の目的は、CPU モジュールと、それぞれがMPUおよびRAMコアとを 有する複数のメモリモジュールと、前記CPUとメモリ モジュールとの接続、および/または、メモリモジュー ル間の接続をなす複数組のバスとを備え、CPUから各 メモリモジュールのMPUに与えられるインストラクシ 30 ョンにより、各メモリモジュールのMPUが作動するよ うに構成された並列コンピュータのアーキテクチャであ って、所定の関連を有する一連のデータに、空間IDが 付与され、各メモリモジュールのMPUが、少なくと も、当該空間ID、自己が管理する一連のデータの部分 に関する論理アドレス、当該部分のサイズ、および、一 連のデータのサイズを含むテーブルを管理し、かつ、各 メモリモジュールのMPUが、受理したインストラクシ ョンに、自己が管理する一連のデータの部分が関与して いるか否かを判断して、RAMコアに記憶されたデータ 40 を読み出してバスに送出し、バスを介して与えられたデ ータをRAMコアに書き込み、データに必要な処理を施 し、および/または、前記テーブルを更新するように構 成されたことを特徴とする並列コンピュータのアーキテ クチャにより達成される。

【0012】本発明によれば、空間 I Dを用いて一連のデータを把握するため、当該一連のデータが、多数のメモリモジュールにより分掌されても、各メモリモジュールのMP Uが、当該一連のデータを確実に認識することができる。また、メモリモジュールは、一連のデータお 50

よび自己が管理するその部分を、テーブルにて把握しているため、インストラクションの受理にしたがって、そのテーブルを参照して、所定の処理を実行することができる。これにより、単一インストラクションに基づく、各MPUでの並列処理が実現できる。

【0013】本発明の好ましい実施態様においては、MPUは、CPUから与えられた空間IDを、自己が管理する1以上の一連のデータの空間IDと比較する空間コンパレータと、CPUから与えられた論理アドレスと、自己が管理するデータの部分の論理アドレスとを比較するアドレスコンパレータと、当該論理アドレスに基づき、自己のRAMセル上の物理アドレスを算出するアドレスカリキュレータとを有している。これらコンパレータおよびカリキュレータは、ハードウェアにて構成されても良いし、MPUのプログラムによりソフトウェアとして実現されるものであっても良い。

【0014】また、本発明の好ましい実施態様においては、メモリモジュールの各々が、CPUモジュールおよび他のメモリモジュールとの同期をなすための同期信号を受け入れ、かつ、前記複数組のバスの何れかとの接続が可能な入力と、前記複数組のバスの他の何れかとの接続が可能な出力を備え、少なくとも、前記同期信号にしたがって、前記何れかのバスと入力との接続により、データを入力しつつ、前記他の何れかのバスと出力との接続により、データを出力できるように構成されている。本実施の形態によれば、同期信号にしたがって、メモリモジュールからのデータ出力およびメモリモジュールへのデータ入力がなされ、かつ、バスの接続の制御により、適切に並列処理を実現することが可能となる。

【0015】複数組のバスの各々には、前記CPUモジュールと何れかのメモリモジュールの入力または出力との間、および/または、他の何れかのメモリモジュールの入力または出力と、さらに他のメモリモジュールの出力または入力との間の接続を規定するためのスイッチが設けられ、スイッチの切換により、複数組のバスの各々において、並列的にデータの授受が実現されるのがより好ましい。これにより、複数組のバスをより有効に利用することが可能となり、より並列性を高めることが可能となる。

○ 【0016】本発明のさらに好ましい実施態様においては、複数組のバスのうちの何れかである第1のバスに、何れかのメモリモジュールの出力と、他の何れかのメモリモジュールの入力とが接続され、かつ、前記複数組のバスのうち、他の何れかである第2のバスに、当該他の何れかのメモリモジュールの出力と、さらに他の何れかのメモリモジュールの入力とが接続され、第1のバスにおけるデータの授受と、第2のバスにおけるデータの授受と、第2のバスにおけるデータの授受が並列的に進行する。このように、コンピュータの実施態様によれば、CPUモジュールと、メモリモジュールとにより、パイプライン処理を実現することが可能と

なる。バスとメモリモジュールとの間の接続を繰り返し て、多段のメモリモジュール間の接続を形成するのがよ り好ましい。

【0017】本発明の別の好ましい実施態様において は、MPUが、一連のデータ中の特定の要素を削除し、 前記一連のデータ中に特定の要素を挿入し、或いは、一 連のデータの末尾に特定の要素を追加することを示すイ ンストラクションを受理すると、テーブルを参照して、 自己の管理するデータの領域と、削除、挿入或いは追加 にかかる要素の位置とを比較して、当該比較結果に応じ 10 て、前記テーブルの内容を更新する。すなわち、MPU において、自己が管理するテーブルを更新する、すなわ ち、リマッピングをすることにより、要素の削除、挿入 および追加を実現することが可能となる。

【0018】本発明のさらに別の実施態様においては、 MPUが、与えられたインストラクションに応答して、 一連のデータ中の要素を特定するための添え字を変換。 し、および/または、要素に特定の修飾を与える値変換 を実行する。また、本発明の目的は、CPUモジュール と、それぞれがMPUおよびRAMコアとを有する複数 20 のメモリモジュールと、前記CPUとメモリモジュール との接続、および/または、メモリモジュール間の接続 をなす複数組のバスとを備え、CPUから各メモリモジ ュールのMPUに与えられるインストラクションによ り、各メモリモジュールのMPUが作動するように構成 された情報処理ユニットであって、所定の関連を有する 一連のデータに、空間IDが付与され、各メモリモジュ ールのMPUが、少なくとも、当該空間ID、自己が管 理する一連のデータの部分に関する論理アドレス、当該 部分のサイズ、および、一連のデータのサイズを含むテ 30 とえば、固定記憶装置16、入力装置18など)との間 ーブルを管理し、かつ、各メモリモジュールのMPU が、受理したインストラクションに、自己が管理する一 連のデータの部分が関与しているか否かを判断して、R AMコアに記憶されたデータを読み出してバスに送出 し、バスを介して与えられたデータをRAMコアに書き 込み、データに必要な処理を施し、および/または、前 記テーブルを更新するように構成されたことを特徴とす る情報処理ユニットによっても達成される。たとえば、 前記ユニットが単一の回路基板に形成され、CPUモジ ュールが、レガシーメモリ、入力装置および表示装置を 40 相互接続する他のバスと連結可能に構成されていても良 (,)

【0019】さらに、本発明の目的は、上記情報処理ユ ニットと、CPUモジュールと他のバスを介して連結さ れた1以上のレガシーメモリを含む記憶装置、入力装置。 および表示装置とを有することを特徴とするコンピュー タシステムによっても達成される。

## [0020]

【発明の実施の形態】[ハードウェア構成]以下、添付. |図面を参照して、本発明の実施の形態につき説明を加え 50 |述する空間 | Dやデータの要素番号等を把握し、CPU|

る。図1は、本発明の実施の形態にかかるコンピュータ システムの構成を示すブロックダイヤグラムである。図 1に示すように、コンピュータシステム10は、単一命 令による並列演算を実現するCPUモジュール12と、 並列演算のために必要な種々のデータを記憶するメモリ モジュール14-1、14-2、14-3、…と、必要 なプログラムやデータを記憶する固定記憶装置16と、 キーボードやマウスなどの入力装置18と、CRTなど からなる表示装置20と、種々の形式のデータ等が記憶 されているレガシーメモリ22とを備えている。また、 バス24-1、24-2、…において、CPUモジュー ル12、各メモリモジュール14との接点には、スイッ チ28-1、28-2、28-3、…などが配設され、 選択された回路要素間における情報の授受が可能となっ ている。また、CPUモジュール12とメモリモジュー ル14-1との間、隣接するメモリモジュール間におい て、バスの連結および接続をなすためのスイッチ30-1、30-2、…が設けられている。

【0021】CPUモジュール12と、メモリモジュー ル14との間には、複数のバス24-1、24-2、2 4-3、24-4、…とが設けられている。したがっ て、CPUモジュール12とメモリモジュール14との 間、および、メモリモジュール間は、上記バスによりデ ータ等の授受が可能となっている。また、CPU12 と、メモリモジュール14との間には、制御信号ライン 25が設けられ、CPU12から発せられるインストラ クションなどが、全てのメモリモジュール14に伝達さ れるようになっている。

【0022】さらに、CPU12と、他の構成要素(た には、ローカルバス26が配設されており、これらの間 でもデータ等の授受が可能となっている。CPU12 は、固定記憶装置16に記憶され、或いは、バス26上 に接続されたR A Mのような他の記憶装置(図示せず) に記憶されたプログラムを読み出し、このプログラムに したがって、以下に示すメモリモジュール14へのイン ストラクションの送出を含むデータの授受のほか、スイ ッチ28、30の制御等を実行する。また、CPU12 は、プログラムにしたがって、レガシーメモリ22に記 憶された種々の形式のデータを受け入れて、この形式の データを、CPU12、メモリモジュール14、バス2 4からなる系にて処理可能な―連のデータ(配列)に変 換し、これらを、各メモリモジュール14に記憶させる とともできる。

【0023】図2は、各メモリモジュール14の概略を 示すブロックダイヤグラムである。図2に示すように、 メモリモジュール14は、CPUモジュール12から与 えられるクロックなど同期信号を受け入れるクロックバ ッファ32と、データを記憶するRAMコア34と、後

12からのインストラクションなどを受理した場合に、 空間 [ Dや要素番号に基づき、RAMコア34へのデー タ書き込みやRAMコアからのデータ読み出しを制御す るMPU36と、バスの何れかからのデータを受け入れ て、RAMコア34に供給し、および/または、RAM コア34からのデータを何れかのバスに送出するI/O 38とを有している。この実施の形態において、メモリ モジュール14は、制御信号ライン25を介して、CP Uからのインストラクションを受け入れ、MPU36 が、このインストラクションに応答して、RAMコア3 10 4のデータを読み出し、RAMコア34にデータを書き 込み、或いは、データに所定の処理を施すことができる ようになっている。また、RAMコア34へのデータア クセスや、I/Oを介してデータ入力およびデータ出力 は、クロックバッファ32に与えられるクロックなどの 同期信号に基づき実行される。

【0024】図1および図2から明らかなように、本発明において、コンピュータシステム10は、メモリ共有型のシステムであると考えることができる。また、後述するように、制御信号ライン25を介して、各メモリモ 20ジュール14にインストラクションを与えることにより、各メモリモジュール14が並列的に処理を実行する。また、バスへのデータ出力およびバスからのデータ入力などが、所定の同期信号に基づき実行される。したがって、このコンピュータシステム10は、SIMDの形態をなしていると考えることができる。

【0025】[実現される機能の概略] このような構成を有するコンピュータシステム10につきより詳細な説明を加える前に、本コンピュータシステム10により実現される機能の概略を簡単に説明する。

## (1) 多空間メモリ

本明細書において、多空間メモリとは、メモリ空間を、 空間IDとアドレスとに基づきアクセスするために割り 当てられたメモリ空間をいう。これにより、一連のデー タが多数のプロセッサに分掌されていても、各プロセッ サが、これを確実に分離、認識することができる。従来 のメモリ空間においては、プロセス毎に個別の領域を割 り当てることはあっても、一連の変数(配列、構造体な ど)毎に目盛り空間を割り当てることは行われてこなか った。したがって、以下、このような従来のメモリ空間 40 を「単一メモリ空間」と称する。単一メモリ空間のシス テムにおいては、アドレスのみを用いてデータにアクセ スしているため、関連を有する一連のデータを分離した り、認識することができなかった。このため、実際には 並列処理が可能であっても、その可否を判断できない場 合が多かった。また、ある単一メモリ空間に、新たな一 連のデータを収容させる場合に、当該一連のデータの収 容場所を確保するために、ガーベージコレクションを実 行する必要があった。

【0026】これに対して、本発明においては、メモリ 50 ることができる。さらに、図6に示すように、配列の要

10

空間に、空間IDを導入し、一連のデータについて同一 のIDを付与している。また、メモリモジュール14に おいて、自身のRAMコア34に保持されているデータ に関する空間 I Dを把握し、これにより、各メモリモジ ュール14自体が、現在アクセスされているデータの空 間IDを参照することにより、自己の作動の是非を決定 することができる。また、各メモリモジュールが空間Ⅰ Dと関連付けて、一連のデータの全部或いは一部を保持 できるため、ある一連のデータを、複数のメモリモジュ ール14に分割して記憶させることができ、これにより ガーベージコレクションを不要にすることができる。 【0027】たとえば、図3に示すように、単一メモリ 空間において、"A"という一連のデータ、"B"とい う―連のデータ、…が収容されている場合を考える。た とえば、ここで、全メモリサイズが32ワードで、上記 一連のデータのサイズの総和が30ワードであると仮定 する。これら一連のデータは、空間中に点在しているた め、未使用のメモリサイズは、12ワードであるにもか かわらず、実際に格納できる一連のデータのサイズは3 ワードに限定される。とのため、3ワードを超えたサイ ズを有する新たな一連のデータを収容すべき場合には、 ガーベージコレクションを実行しなければならない。そ の一方、図4に示すように、本発明においては、一連の データの各々に、空間 I Dが付与されている。これら は、空間IDと関連付けられて、1以上のメモリモジュ ール14に記憶される。したがって、未使用のサイズと

【0028】(2)メモリモジュール

また、本発明においては、各メモリモジュール14が、 MPU36を有し、上記空間IDのほか、自己が保持する一連のデータの各々の要素番号を把握している。したがって、CPU12からのインストラクションを受理した後、MPU36が、インストラクションにしたがってアクセスすべきデータが、自己のRAMコア34中に保持されているものか否かを判断して、アクセスに必要の是非を決定することができる。さらに、各メモリモジュール14が、自己のRAMコア34に格納されている配列要素の添え字の範囲から、SIMDでのインストラクションにおける暗黙の処理の分担範囲を決定することが 40 可能である。

収容可能なサイズとを一致させることが可能となる。

【0029】また、本発明においては、メモリモジュール14が、アドレスリマッピングを実行できるようになっている。たとえば、図5に示すように、ある配列の所定の位置に特定の要素を挿入する場合、その他、所定の位置の要素を削除し、或いは、配列の末尾に所定の要素を追加する場合にも、本実施の形態においては、当該配列に関連する要素を保持しているメモリモジュールの各々において、MPU36が、アドレスリマッピングを実行することにより、並列的かつ高速に、これらを実現することができる。さらに、図6に示すように、配列の要

素(値)に修飾を与える場合(たとえば、各値に「1」 を加える場合)にも、関連する配列の要素を保持するメ モリモジュールの各々において、MPU36が、並列的 かつ高速に、必要な処理を行うことができる。

【0030】また、メモリモジュール14においては、 MPU36が、RAMコア34にて記憶すべきデータの 各々のサイズを把握し、圧縮した形態にてこれらを記憶 することができる。たとえば、あるメモリモジュール1 4にて、整数値のデータを保持すべき場合に、実際のデ ータ値が"O"ないし"3"までの値しか取り得ない場 10 合には、MPU36は、各データのために2ビットのみ を用意する。CPU12との間では、1つの整数を表現 するために32ビットを使用していた場合には、メモリ モジュール14とCPU12との間での通信のために、 MPU36が、データ形式を変更して、CPU12との 授受をなせば良い。これにより、RAMコア34をより 無駄なく利用することが可能となる。また、文字列のよ うな長さの異なるデータについても、同様にデータ長を 変更して記憶することができるようになっている。

【0031】さらに、メモリモジュール14において は、所定の空間IDに関連付けられたデータや、所定の 範囲の要素番号を付されたデータに、特定の値(たとえ ば、「0」)をセットすることができるようになってい る。これにより、メモリモジュール14内で、高速に初 期化の処理を実行することが可能となる。また、メモリ モジュール14においては、ある特定のデータ(配列) 中の値を検索することや、添字の範囲をチェックすると とが可能である。

【0032】(3)組み替え可能バス

本発明においては、CPU12が、スイッチ28-1、 28-2、…およびスイッチ30-1、30-2、…を 選択的にオン/オフして、データの授受をなすべきメモ リモジュール14を指定することにより、パイプライン 処理を実現している。たとえば、図7に示すように、あ るメモリモジュール14-iから出力されたデータを、 他のメモリモジュール14-jに与え、かつ、当該他の メモリモジュール14-jから出力されたデータを、さ らに他のメモリモジュール 1 4 - k に伝達すべき場合に は、CPU12は、バス24-mを、メモリモジュール 14-i、14-jのために割り当て、かつ、バス24 40 割り当てるように、各スイッチの状態を設定する。

【0033】さらに、これらパイプライン処理は、単一 のメモリモジュール間の接続により実現される場合だけ でなく、複数の一連のメモリモジュール(メモリモジュ ール群)の間の接続により実現することも可能である。 達成しようとする処理に応じて、各メモリモジュール間 をつなぎ替え、各接続経路毎に、定められた種類のデー タを定められた順序にて一方向に連続転送することで、

ケジュール化することができる。これにより、分散メモ リ型の並列処理システムの最大の問題であった、プロセ ッサ間通信のパフォーマンスの低さを、解消することが、 できる。とのように構成されたコンピュータシステム1 0において、多空間メモリの具体的構成および多空間メ モリにおけるシステムの作動につき説明を加える。

12

【0034】[多空間メモリ]図8は、多空間メモリの 下での、メモリモジュール14の構造を説明するための 図である。図8(a)に示すように、メモリモジュール 14中のRAMコア34には、空間ID管理テーブルが 設けられる。これにより、メモリモジュール14のMP U36は、自己が保持するデータの空間ID等必要な情 報を把握することが可能となる。図8(b)に示すよう に、空間 I D管理テーブルには、自己が保持するデータ 群ごとの、空間ID、CPUの管理の下での、データ群 の論理開始アドレス、データ群が割り付けられた領域の サイズ、RAMコア34中の物理開始アドレス、当該空 間IDを有する一連のデータの全サイズ、および、アク セス制限を示すアクセス制限フラグが格納されている。 20 アクセス制限フラグは、この実施の形態においては、読 み出しのみ可能(R)、書き込みのみ可能(R)、読み 書き可能(RW)の3つの状態を示すことができるよう になっている。

【0035】メモリモジュール14のMPU36は、あ る空間 I Dを有するデータ群が与えられた際に、RAM コア34中に当該データ群を収容すべき、1以上の領域 を見出して、当該領域にデータ群をそのまま、或いは、 2以上に分割して収容する。この際に、与えられた空間 ID、論理開始アドレス、全サイズ、アクセス制限フラ 30 グとともに、実際にデータを収容したRAMコア中の論 理開始アドレスや、割り付け領域サイズも、空間ID管 理テーブルに記憶される。図8(c)は、図8(b)に よる空間ID管理テーブルにしたがったRAMコア36 中のデータを示す図である。

【0036】[メモリアクセスの概略説明] このように 構成されたメモリモジュール14へのアクセスにつき以 下に説明を加える。図9に示すように、まず、CPU1 2 が、空間 I D および論理アドレス、並びに、必要なイ ンストラクション(たとえば、データの書き込みや読み 出し)を、制御信号ライン25を介して、全てのメモリ モジュール14に伝達する。各メモリモジュール14に おいては、これに応答して、MPU36に設けられた空 間コンパレータ52が、空間IDと、自己の空間ID管 理テーブル上に保持されている空間IDとを比較して、 同一のものを、自己が保持しているかを判断し、ま た、、アドレスコンパレータ54が、論理アドレスにつ いて、同様の判断を行う。次いで、メモリモジュール 1 4のMPU36が、自己のRAMコア34に、インスト ラクションによる処理対象となるデータが保持されてい バスの能力を100%近く使用できるように、通信をス 50 ると判断した場合には、アドレスカリキュレータ56

が、空間ID管理テーブルを参照して、RAMコア34 中の物理アドレスを算出し、処理対象となるデータを特 定する。このようにして、データが特定された後に、M PU36は、CPU12から与えられたインストラクシ ョンに応じた処理(たとえば、データの書き込みや読み) 出し)を実行し、必要な場合には、データをCPU12 に伝達する(図9(c)参照)。

13

【0037】[多空間メモリのより具体的な動作:配列 中の要素の削除等]たとえば、ある空間IDをもつ一連 のデータ(以下、これを場合によって「配列」と称す る。)が、1以上のメモリモジュール14に収容された 状態から、特定の要素が削除された状態までの一連の動 作につき以下に説明する。あるメモリモジュール14iにおいて、空間ID「010」に属するデータ群が、 図10(a)に示すように格納され、多のメモリモジュ ール14-jにおいて、空間ID「010」に属するデ ータ群が、図10(b)に示すように格納されている場 合を考える。たとえば、メモリモジュール14-iにお いては、論理アドレス「0」から「59」までのデータ が、そのRAMコアの物理アドレス「100」から記憶 20 されていることがわかる。この場合に、みかけの配列 は、図10(c)に示すようなものとなる。

【0038】このように複数のメモリモジュールに、あ る配列が格納されている場合に、特定の要素を削除する 際の処理につき以下に述べる。CPU12から、各メモ リモジュール14-1、14-2、…に、制御信号ライ ン25を介して、空間ID「010」の要素「50~5 9」を削除するというインストラクションが発せられた 場合を考える。図11および図13は、ある空間ID中 の所定の範囲の要素を削除するというインストラクショ 30 ンを受理した各メモリモジュールにて実行される処理を 示すフローチャートである。

【0039】各メモリモジュールのMPU36は、制御 信号ライン25を介して与えられたインストラクション を受理して、その内容を解釈し(ステップ1101)、 インストラクション中の「空間ID」を調べ(ステップ 1102)、自己のRAMコア34が保持するデータの 空間IDに関連しているか否かを判断する(ステップ1 103)。ステップ1103にてノー(No)と判断され た場合には、処理を終了し、その一方、イエス(Yes) と判断された場合には、MPU36は、空間ID管理テ ーブルを参照して、当該空間IDに関するデータ群が書 き込み可能な状態になっているか、或いは、削除要求の あった範囲のサイズが、全サイズよりも小さいか否かな どを判断する(ステップ1104)。チェックによって 異常があると判断された場合(ステップ1105でイエ ス(Yes))には、MPU36は、制御信号ライン25を 介してエラーが生じたことを通知する。その一方、異常 がない場合には、MPU36は、インストラクションに

て保持する要素の範囲とを比較し(ステップ110 7)、その比較結果によって(ステップ1108)、種 々の処理を実行する。

14

【0040】まず、削除要求のあった範囲が、自己の保 持する要素の範囲よりも後ろである場合(図11の

「A」および図12(a)参照)には、MPU36は何 ら処理を実行しない(ステップ1109参照)。削除要 求のあった範囲が、自己の保持する要素の後方に重なっ て位置している場合(図11の「B」および図12 (b)参照)には、MPU36は、割り付け領域サイズ を更新する(ステップ1110)。すなわち、削除要求 範囲の先頭(矢印1201参照)から、自己のRAMコ ア34にて保持する要素の範囲の末尾(矢印1202参 照) までがガーベージとなるように、割り付け領域サイ ズが変更される。

【0041】その一方、削除要求のあった範囲が、自己 の保持する要素の範囲よりも前方である場合(図11の 「C」および図12(c)参照)には、MPU36は、 論理開始アドレスを、削除要求のあったサイズ分だけ減 じるように、論理開始アドレスを更新する(ステップ1 111)。さらに、削除要求のあった範囲が、自己の保 持する要素の範囲よりも前方で、かつ、一部だけ重なる 場合 (図11の「D」および図12(d)参照) には、 MPU36は、論理開始アドレスを、削除要求のあった 範囲の先頭の値に変更するとともに、物理開始アドレス を、削除要求のあった範囲の末尾の値「+1」に対応す る物理アドレスに変更する(ステップ1112)。次い で、MPU36は、割り付け領域サイズを更新する(ス テップ1113)。

【0042】また、削除要求のあった範囲が、自己の保 持する要素の範囲を包含する場合(図11の「E」およ び図12(e)参照)には、MPU36は、当該空間I Dに関する種々のデータを、空間 I D管理テーブルから 削除する(図13のステップ1114)。最後に、削除 要求のあった範囲が、自己の保持する要素の範囲に包含 される場合 (図11の「F」および図12 (f)参照) には、空間 I D管理テーブルを二つに分割して、削除範 囲より前方に関する種々のデータと、削除範囲より後方 に関する種々のデータに関するものを生成する(ステッ プ1115)。或いは、MPU36は、自己のRAM3 4に関して、ガベージコレクションを時刻しても良い。 【0043】このようにして、CPU12からの単一命 令(ある空間 I Dの削除命令)に応答して、各メモリモ ジュール14が動作して、所定のメモリモジュールにて 必要な処理が並列的に実行される。次に、ある空間ID を有する配列の末尾に、ある要素を追加する場合につき 簡単に説明する。図14は、ある空間IDの配列の末尾 に要素を追加するというインストラクションを受理した 各メモリモジュールにて実行される処理を示すフローチ より削除を要求された範囲と、自己のRAMコア34に 50 ャートである。図14のステップ1401~ステップ1

ある。

406は、図11のステップ1101~ステップ1106に対応する。次いで、各メモリモジュール14のMPU36は、追加すべき要素を、自己のRAMコア34に記憶すべきか否かを判断する(ステップ1407)。とれは、MPU36が、自己の空間ID管理テーブルを参照することにより実現できる。ステップ1407にてイエス(Yes)と判断された場合には、空間ID管理テーブル中の必要な値を更新し(たとえば、割り付け領域サイズを、追加する要素数に応じて変更する)、次いで、RAMセル中の所定の領域に、追加すべき要素を書き込む(ステップ1409)。或いは、空間ID管理テーブルの種々の値を生成して、対応するRAMセル中の領域に、追加すべき要素が書き込まれても良い。

【0044】次いで、MPU36は、空間ID管理テーブル中の当該空間IDに関連する「全サイズ」の値を更新する(ステップ1410)。ステップ1407においてノー(No)と判断された場合にも、空間ID管理テーブル中の関連する「全サイズ」の値が更新される。配列中の任意の位置に要素を追加する場合にも、削除要求と略同等の処理が、各メモリモジュール14にて実行される。

【0045】[多空間メモリのより具体的な動作:配列 の結合および分割〕次に、図15(a)に示すように、 複数の配列を結合したり、或いは、図15(b)に示す ように、単一の配列を複数の配列に分割する場合につき 説明を加える。本実施の形態にかかるコンピュータシス テム10においては、ある空間ID(図15(a)にお いては空間ID「100」)を有する配列、および/ま たは、他の空間ID(図15(b)においては空間ID 「100」)を有する配列が、単一のメモリモジュール 30 のRAMコアに収容されていても良いし、或いは、複数 のメモリモジュールのRAMコアに収容されていても良 い。図16は、空間ID「10」を有する配列および空 間ID「11」を有する配列、並びに、これらがメモリ モジュール中に収容された状態を示す図である。図16 (a)においては、その空間IDが「10」であり、か つ、各要素のサイズが10ワードである配列1501が 示されている。この配列1501中の要素は、メモリモ ジュール14-1ないし14-xに収容されている。ま た、図16(b)においては、その空間IDが「11」 であり、かつ、各要素のサイズが10ワードである配列 1510が示されている。この配列1510の要素も、 メモリモジュール14-1ないし14-xに収容されて いる。

【0046】CPU12が、制御信号ライン25を介して、「空間ID「10」の配列と空間ID「11」の配列とを結合する」旨のインストラクションを発すると、各メモリモジュール14は、これを受理して、自己の保持しているデータの空間IDに関するインストラクションであるか否かを判断する。これらの処理は、図11の

16 ステップ1101ないしステップ1106と略同様であ る。次いで、自己の保持しているデータの空間IDが、 インストラクションに関連している場合には、メモリモ ジュールのMPUは、以下の手順にしたがって、配列の 結合を実現する。上記図16に示す場合に、関連する各 メモリモジュール14は、空間ID「10」および空間 ID「11」の双方の要素を保持している場合に、空間 ID「11」に関する空間ID管理テーブルの値を更新 する。より具体的には、空間ID「10」に関する「全 サイズ」の値を参照して、その論理開始アドレスを再度 算出する(たとえば、図17の符号1701、1702 参照)。また、関連する各メモリモジュールは、空間I D管理テーブル中の「全サイズ」の値を、二つの配列を くみ合わせたサイズに対応するものに更新する(たとえ ば、図17の符号1703参照)。図17は、このよう にして得られた配列1710、および、各メモリモジュ ール14-1~14-xにおける空間ID管理テーブル (たとえば、符号1711、1712参照)を示す図で

0 【0047】図18は、空間ID「10」を有する配列を、空間ID「10」を有する配列と、空間ID「1 1」を有する配列に分割する一例を示す図である。図18(a)に示す、空間ID「10」を有する配列の分解点を定め、分解点より前方に位置する要素を空間ID「10」の配列とするとともに、分解点より後方に位置する要素を空間ID「11」の配列とする。

【0048】この場合にも、CPU12が、制御信号ラ イン25を介して、「空間ID「10」の配列を、分解 点を境にして、空間 ID「10」の配列と空間ID「1 - 1 」の配列とに分解する」旨のインストラクションを発 すると、各メモリモジュール14は、図11のステップ 1101ないしステップ1106に略対応する処理を実 行し、メモリモジュールのうち、インストラクションに 関連するもの(図18の例では、メモリモジュール14  $-1 \sim 14 - x$ )が、所定の処理を実行する。たとえ ば、MPU36は、分解点より後方に位置する要素を収 容している場合に、空間ID「011」に関する空間I D管理テーブル中の種々の値を作成するとともに、空間 ID「010」に関する空間管理IDテーブルのうち、 全サイズに関する値を更新する。また、分解点より前方 に位置する要素のみを収容している場合にも、メモリモ ジュールのMPU36は、空間ID「010」に関する 空間管理IDテーブルのうち、全サイズに関する値を更 新する。図19は、このようにして得られた配列190 1、1902、および、各メモリモジュール14-1~ 14-xにおける空間ID管理テーブル(たとえば、符 号1911、1912および1913参照)を示す図で ある。

持しているデータの空間 I Dに関するインストラクショ 【 0 0 4 9 】 [ 多空間メモリのより具体的な動作: パランであるか否かを判断する。これらの処理は、図 1 1 の 50 レルコピー ] 次に、多空間メモリの下で、場合によって

は組み替え可能バスを利用したパラレルコピーにつき、 簡単に説明を加える。たとえば、CPU12からの単一 のインストラクションにしたがって、図20に示すよう に、一方のメモリモジュール群140から、他のメモリ モジュール群141へのデータのパラレルコピーを実現 することができる。パラレルコピーには以下の態様が考

【0050】(1)一方のメモリモジュール群140には単一のメモリモジュールが含まれ、他方のメモリモジュール群には、複数のメモリモジュールが含まれる場合。

えられる。

(2)一方のメモリモジュール群140に、複数のメモリモジュールが含まれ、他方のメモリモジュール群にも、複数のメモリモジュールが含まれる場合。

【0051】前者においては、コピー元の要素を収容しているメモリモジュール14のMPU36は、CPU12から制御信号ライン25を介して与えられたインストラクション(たとえば、ある空間IDを有する配列中の所定の要素を、空間ID8、9、10の配列としてコピーせよという指令)を受理して、RAMコア34から指20定された要素を所定のバス上に出力する。その一方、コピー先となるMPU36も、同一のインストラクションの受理に応答して、バスから出力された要素を受理して、これをRAMコア34の所定の領域に記憶するとともに、自己の空間ID管理テーブルを更新する。

【0052】後者においては、複数のバスを利用して、一方のメモリモジュール群140中のメモリモジュール群からのデータを、それぞれ、他方のメモリモジュール群141の対応するメモリモジュールに与えることが可能である。この場合には、CPU12は、スイッチ28お30よびスイッチ30を、所定のメモリモジュール間のデータの授受が可能なように制御すれば良い。

【0053】[多空間メモリのより具体的な動作:隠れ 更新など]本実施の形態にかかる多空間メモリを用い て、添字変換により、入力された添え字を変換して、変 換済みの添え字によって、配列を指定し、さらに、配列 の要素に値を修飾することができる。ある処理が終了し て、コミットすることにより、添字変換や値修飾が不要。 となったときに、各メモリモジュールのMPUは、当該 配列に関する空間 I D管理テーブルを書きかえてリマッ 40 ピングを実行することにより、瞬時に添字変換を解消す ることができる。その一方、値修飾自体は、実際のRA Mコアに記憶された要素を更新する必要があるため、時 間を要する。したがって、各メモリモジュールにおい て、変換済フラグを設け、値修飾が反映された要素が、 実際にRAMコアに記憶した後に、当該要素に対応する フラグを「1」にセットされる。このようにすれば、あ るプロセスにおいて、変換フラグを参照して、これが 「1」である場合には、値修飾を経る必要がなく、その 一方、変換フラグが「0」であるバイには、値修飾を経 50

る必要があることを容易に知ることができる。したがって、実質的にコミットを瞬時に実現することができる。 さらに、本実施の形態にかかる多空間メモリを用いれば、図21に示すように、ネスト構造の値修飾についても、変換済フラグを設け、この変換済フラグを参照することにより、値修飾を経る必要の有無を知ることが可能となる。

18

【0054】[多空間メモリおよび組み替え可能バスの利用:ソート(その1)]本実施の形態においては、多空間メモリおよび組み替え可能バスを利用することにより、CPU12からの単一のインストラクションに基づき、並列的にソート処理を実行することが可能となる。以下、本実施の形態における並列的なソート処理につき説明を加える。図23および図24は、本実施の形態にかかるソート処理の流れを説明するための図である。このソート処理では、大きく分けて、図23に示す処理(存在数の確定および累計の算出)と、図24に示す処理(レコード番号の転送)とに分けて考えることができる。

【0055】この実施の形態にかかるソート処理を実現 するために、本実施の形態においては、レコード番号を 格納したレコード番号配列、ある項目に関する実際の項 目値を格納した値リスト、および、レコード番号配列か らの値(レコード番号)を入力として、対応する値リス トの格納位置を示すポインタ値を出力するように構成さ れた値リストへのポインタとを利用している。すなわ ち、レコード番号から、対応する位置の値リストへのポ インタ値が参照され、そのポインタ値にしたがって、実 際の項目値が指定されるようになっている(図25参 照)。まず、CPU12が、必要なインストラクション を、制御信号ライン25を介して、各メモリモジュール 14に与えると、各メモリモジュールにて、図11のス テップ1101ないしステップ1106に略同等の処理 が実行される。また、関連するメモリモジュールのう ち、レコード番号を格納したメモリモジュールからの通 知にしたがって、CPU12は、レコード番号を格納し た一連のメモリモジュール(第1のメモリモジュール群 2301)の出力を、あるバス(「第1のバス」と称す る)に接続するように、スイッチ28、30を制御す る。

【0056】次いで、値リストへのポインタ配列を格納したメモリモジュールからの通知にしたがって、CPU12は、上記値リストへのポインタ配列を格納した一連のメモリモジュール(第2のメモリモジュール群2302)の出力を、あるバス(「第2のバス」と称する)に接続するように、スイッチ28、30を制御する。さらに、他の一連のメモリモジュール(第3のメモリモジュール群2303)においては、値リストへのポインタと同一サイズ(同じ要素数)の「存在数配列」のための領域が確保され、かつ、各要素が「0」に初期化される。

さらに、第3のメモリモジュール群の入力を、上記第2 のバスと接続する。

【0057】次いで、レコード番号配列の先頭から順 に、レコード番号が第1のバスに送出される。これは、 第1のメモリモジュール群2301において、各メモリ モジュールのMPU36が、空間ID管理テーブルを参 照して、自己が第1のバスにデータを出力するタイミン グを検出して、所定のレコード番号を送出することによ り実現される。レコード番号は、第1のバスを介して、 第2のメモリモジュール群2302を構成するメモリモ 10 いて、あるレコード番号「p」が伝達されている際に、 ジュールの各々に与えられる。各メモリモジュールのM PU36は、自己の空間ID管理テーブルを参照して、 自己が管理する値リストへのポインタ配列に関連するレ コード番号が入力されたことを検出し、当該入力に対応 するポインタ値を第2のバスに出力する。

【0058】ポインタ値は、第2のバスを介して、第3 のメモリーのジュール群を構成するメモリモジュールの 各々に与えられる。各メモリモジュールのMPU36 は、自己の空間ID管理テーブルを参照して、自己が管 理する値リストのポインタ配列に関連するポインタ値が 20 与えられたことを検出し、存在数配列において、ポイン タ値に対応する位置の要素をインクリメントする。この 動作を繰り返すことにより、項目値が何度レコード番号。 により指されているか(ポイントされているか)を知る ことができる。上記存在数配列のための一連の処理が終 了すると、ソートされたレコード番号を格納する配列を 作成するために、一連のメモリモジュールに、一定の領 域が確保される。この一連のメモリモジュールを、第4 のメモリモジュール群2304と称する。CPU12 力と、第4のメモリモジュール群の入力とを、バス (「第3のバス」と称する)を介して接続するように、 スイッチ28、30を制御する。

【0059】とのような準備が終了した後に、ソート処 理が実行される。より具体的には、レコード番号配列の 先頭から、レコード番号が第1のバスを介して、第2の メモリモジュール群を構成するメモリモジュールに与え られる。第2のメモリモジュール群中の所定のメモリモ ジュールにおいては、MPU36がレコード番号の受理 に応答して、ポインタ値を、第2のバスを介して、第3 40 のモジュール群に伝達する。次いで、第3のメモリモジ ュール群のうち、所定のメモリモジュールにおいて、M PU36が、ポインタ値に基づき、関連する存在数配列 を参照して、レコード番号の格納位置を決定する。これ により、レコード番号およびその格納位置が、が当該メ モリモジュールから、第3のバスに送出される。したが って、第4のメモリモジュール群の所定のメモリモジュ ールにおいて、MPU36が、レコード番号を、所定の 格納位置に配置する。この処理を繰り返すことにより、 第4のメモリモジュール群に、ソートされたレコード番 50 に送出すると、第2のメモリモジュー群2602の所定

号の配列(図24の符号2410)を作成することがで きる。

20

【0060】たとえば、図23に示す処理を、パイプラ イン処理にすることができる。すなわち、第1のバスに おいて、あるレコード番号「p」が伝達されている際 に、第2のバスにおいては、レコード番号 | p-1」に 関するボインタ値「P(p-1)」が伝達され得る。ま た、同様に、図24に示す処理も、パイプライン処理に することが可能である。この場合にも、第1のバスにお 第2のバスにおいては、レコード番号「p-1」に関す るポインタ値「P(p-1)」が伝達され得る。さら に、同じタイミングで、第3のバスにおいては、レコー ド番号 | p - 1 | に関する格納位置が伝達され得る。 【0061】このようなパイプライン処理の処理時間に つき、以下のような結果が得られた。まず、図23の処 理に関して、第1のバスないし第4のバスが、それぞ れ、128ビットであり、それぞれ、12.8GB/秒 の転送能力があると考え、また、レコード番号やポイン タ値が、それぞれ、32ビット整数であると仮定した。 いま、レコード数が10億個の場合に、上記処理では、 40億バイトの転送が発生するが、パイプライン処理を 実行するため、4G/12.8G=0.3125秒にて 完了することが分かった。同様に、図24の処理に関し て、同様の転送能力およびデータサイズを仮定すると、 レコード数が10億個の場合に、80億バイトの転送が 発生するが、本実施の形態によれば、パイプライン処理 の実行により、8G/12.8G=0.625秒にて処 理を完了することができる。

は、先の処理に利用した第3のメモリモジュール群の出 30 【0062】[多空間メモリおよび組み替え可能バスの 利用:ソート(その2)]次に、他の手法によるソート 処理につき簡単に説明を加える。このソート処理におい ても、まず、レコード番号配列を格納したメモリモジュ ールからなる第1のメモリモジュール群(図26の符号) 2601参照)の出力と、第1のバスとが接続され、か つ、値リストへのポインタ配列を格納したメモリモジュ ールからなる第2のメモリモジュール群2602の入力 が、第1のバスと接続される。これにより、第1のメモ リモジュール群2601の出力が、第1のバスを介し て、第2のメモリモジュール群2602に伝達可能とな る。その一方、第2のメモリーモジュール群2602 と、同一の数の空間IDを有する配列の領域が、第3の メモリモジュール群2603に確保されるとともに、第 2のメモリモジュール群2602の出力と、第3のメモ リモジュール群の入力とが、第2のバスを介して接続さ れる。

> 【0063】次いで、第1のメモリモジュール群260 1において、あるレコード番号を収容するメモリモジュ ールのMPU36が、当該レコード番号を、第1のバス

のメモリモジュールにおいて、MPU36がこの受理に 応答して、対応するポインタ値から、空間IDを算出 し、レコード番号および空間IDを、第2のバスに送出 する。

【0064】第3のメモリモジュール群において、当該空間IDおよびレコード番号に基づき、所定のメモリモジュール36が起動し、当該空間IDを有する配列の末尾に、与えられたレコード番号を配置する。このような処理を全てのレコード番号について実行した後に、第3のメモリモジュール群において、各メモリモジュールの10MPU36は、自己の有する配列を結合するための処理を実行する。このような手法によっても、高速なソート処理を実現することができる。

【0065】 [多空間メモリおよび組み替え可能バスの利用:検索(その1)] また、本実施の形態においては、多空間メモリおよび組み替え可能バスを利用することにより、CPU12からの単一のインストラクションに基づき、並列的に検索処理を実行することができる。図27および図28は、本実施の形態にかかる検索処理の流れを説明するための図である。この検索処理のため 20に、レコード番号配列、値リストへのポインタ配列、値リストおよび後述する可否フラグ配列などが利用される。したがって、この例でも、図25のように、レコード番号、ポインタ値、項目値の順に、値が参照されるようになっている。

【0066】まず、CPU12が、必要なインストラク ションを、制御信号ライン25を介して、各メモリモジ ュール14に与えると、各メモリモジュールにて、図1 1のステップ1101ないしステップ1106に略同等 の処理が実行される。また、関連するメモリモジュール 30 のうち、値リストを格納したメモリモジュールからの通 知にしたがって、CPU12は、値リストを格納した一 連のメモリモジュール(第1のメモリモジュール群27 01)の出力を、あるバス(「第1のバス」と称する) に接続するように、スイッチ28、30を制御する。さ らに、そのよう素数が値リストのものと同じである可否 フラグ配列のための領域が、一連のメモリモジュール (第2のメモリモジュール群2702)に確保され、当 該第2のメモリモジュール2702に属する各メモリモ ジュールのMPU36が、当該領域の要素を「0」に初 40 期化する。

【0067】次いで、第2のメモリモジュール群2702の入力が、第1のバスに接続される。次いで、CPU12から与えられた検索条件にしたがって、第2のメモリモジュール群の各メモリモジュールにおいて、MPU36が、値リスト中の検索条件に合致する項目値の位置を参照して、可否フラグ配列の対応する値を「1」にセットする。たとえば、検索条件が範囲であれば、二分割法などを用いれば良い。また、その他の条件であれば、要素ごとにその可否を判断すれば良い。このような処理

が終了した後に、検索が実行される。まず、レコード番 号配列を格納した一連のメモリモジュール(第3のメモ リモジュール群2703)の出力を、第1のバスに接続 するとともに、値リストへのポインタ配列を格納した一 連のメモリモジュール(第4のメモリモジュール群27 ○4)の入力を、第1のバスに接続するよう、CPU1 2は、スイッチ28、30を制御する。また、第4のメ モリモジュール群2704の出力を、第2のメモリモジ ュール群2702の入力とを、第2のバスと接続するよ うに、CPU12は、スイッチ28、30を制御する。 【0068】さらに、レコード番号の要素数と同じ要素 数を有する配列のための領域が、一連のメモリモジュー ル(第5のメモリモジュール2705)に確保され、C PU12は、その入力と、第2のメモリモジュール群2 702の出力とが、第3のバスを介して接続されるよう に、スイッチ28、30を制御する。このような処理の 後に、レコード番号配列の先頭から順に、レコード番号 が第1のバスに送出される。これは、第3のメモリモジ ュール群2703において、各メモリモジュールのMP U36が、空間ID管理テーブルを参照して、自己が第 1のバスにデータを出力するタイミングを検出して、所 定のレコード番号を送出することにより実現される。

22

【0069】レコード番号は、第1のバスを介して、第4のメモリモジュール群2704を構成するメモリモジュールのMPU36は、自己の空間ID管理テーブルを参照して、自己が管理する値リストへのポインタ配列に関連するレコード番号が入力されたことを検出し、受理したレコード番号が入力されたことを検出し、受理したレコード番号および当該入力に対応するポインタ値を第2のバスを介して、第3のメモリーのジュール群を構成するメモリモジュールのAPU36は、自己の空間ID管理テーブルを参照して、自己が管理する可否フラグ配列の位置と同じ位置を示すポインタ値が与えられたことを検出し、当該ポインタ値が示す可否フラグが、「0」であるか

「1」であるかを判断する。次いで、可否フラグが 「1」の場合には、関連するレコード番号が、第3のバスを介して、第5のメモリモジュール群2705に与えられる。

【0070】第5のメモリモジュール群2705においては、各メモリモジュールのMPU36は、自己の空間 ID管理テーブルを参照して、自己が管理するヒット情報格納用配列の位置と同じ位置を示すレコード番号が与えられたことを検出し、その位置の要素を「1」にする。このような処理を所定のレコード番号に関して繰り返し、ヒット情報格納用配列にて「1」である要素を取り出すことにより、検索が完了する。

法などを用いれば良い。また、その他の条件であれば、 【0071】ソート処理と同様に、上記検索処理でも、 要素ごとにその可否を判断すれば良い。このような処理 50 図27を参照して説明した処理、および、図28を参照

して説明した処理を、それぞれ、パイプライン処理にて 実現することができる。検索処理におけるパイプライン 処理の処理時間につき、以下のような結果が得られた。 バスの転送能力、および、各要素のビット数は、ソート 処理と同様であると考えた。レコード数が10億個の場 合に、上記検索処理では、80億バイトの転送が発生す るが、パイプライン処理を実行するため、8G/12. 8G=0.624秒にて完了することが分かった。

【0072】さらに、本検索処理を用いれば、AND、 実現することもできる。より具体的には、各項目につ き、ヒット情報格納用配列を作成し、これら配列の要素 間での論理演算を行えば良い。たとえば、二つの項目の AND或いはOR検索では、ヒット情報格納用配列の要 素の転送(10億バイト)が行われる。したがって、そ の処理時間は、(10G/8)/12.8G=0.09 8秒だけ必要であることが理解できる。

【0073】なお、さらに高速化を図るために、AND 検索の場合には、二つの検索処理を実行するメモリモジ ュール群を縦列に接続すれば良い。また、第4のメモリ 20 モジュール群と第2のメモリモジュール群を、同一の複 数のメモリモジュールにて構成できるように、配列を配 置すれば、ボトルネックを解消することができ、これに より、略2倍の処理速度を得ることが可能となる。

【0074】本発明は、以上の実施の形態に限定される ことなく、特許請求の範囲に記載された発明の範囲内 で、種々の変更が可能であり、それらも本発明の範囲内 に包含されるものであることは言うまでもない。たとえ ば、前記実施の形態においては、本発明を、コンピュー タシステムに適用しているがこれに限定されるものでは 30 なく、パーソナルコンピュータなどに接続可能なコンピ ュータボードに適用することもできる。この場合には、 図1において、CPU12、メモリユニット14、バス 24等がボード上に搭載され、これが、本発明における 情報処理ユニットを構成する。

【0075】また、CPU12とメモリモジュール14 との間、および/または、メモリモジュール14間を接 続するバスの組の数は、前記実施の形態に限定されるも のではなく、コンピュータシステムを搭載する回路基板 の大きさ、各バスのビット数などを考慮して適宜決定す 40 ることができる。また、前記実施の形態においては、メ モリモジュールの入出力とバスとの接続を規定するため のスイッチ28と、CPUとメモリモジュールとの間、 メモリモジュール間で、バスの切断することができるス イッチ30とを設けている。スイッチ30を設けること により、たとえば、あるバス(図1のバス24-4参 照)を、CPUモジュール12とメモリモジュール14 - 1 とのデータ授受のために利用するとともに、同時 -に、メモリモジュール14-2とメモリモジュール14

(この場合に、スイッチ30-5をオフにすれば良 い)。したがって、より有効にバスを利用することが可 能となっている。しかしながら、バスの組を数を十分に 大きくできる場合、或いは、メモリモジュールの数が比 較的少ない場合には、スイッチ30を必ずしも設けなく て良い。

24

【0076】また、本明細書において、制御信号ライン 25を介して、CPU12からのインストラクションが 与えられることを記載したが、制御信号ライン25を介 OR或いはNOTなどを組み合わせた複数項目の検索を 10 して、インストラクションのほか、クロックなど、各メ モリモジュールが同期して作動するための種々の制御信 号が与えられ、かつ、各メモリモジュールからCPU1 2への所定の信号(たとえば、エラー信号や、データ受 理を示す信号) が与えられていることは言うまでもな い。さらに、本明細書において、一つの手段の機能が、 二つ以上の物理的手段により実現されても、若しくは、 二つ以上の手段の機能が、一つの物理的手段により実現 されてもよい。

[0077]

【発明の効果】本発明によれば、分散メモリー型におい て、単一命令により種々のメモリーに記憶された配列中 の要素を入出力し、著しく高速な並列処理を実現可能な コンピュータアーキテクチャを提供することが可能とな る。

### 【図面の簡単な説明】

【図1】 図1は、本発明の実施の形態にかかるコンピ ュータシステムの構成を示すブロックダイヤグラムであ る。

【図2】 図2は、本実施の形態にかかるメモリモジュ ールの概略を示すブロックダイヤグラムである。

【図3】 図3は、単一メモリ空間における一連のデー タの配置を示す図である。

【図4】 図4は、本発明に係る多空間メモリにおける 一連のデータの配置を示す図である。

【図5】 図5は、本実施の形態におけるアドレスリマ ッピングを説明するための図である。

【図6】 図6は、本実施の形態における値修飾を説明 するための図である。

【図7】 図7は、本実施の形態にかかるメモリモジュ ール間のパイプライン処理の概略を示す図である。

【図8】 図8は、本実施の形態にかかる多空間メモリ の下での、メモリモジュール14の構造を説明するため の図である。

【図9】 図9は、多空間メモリの下での、メモリモジ ュール14の構造を説明するための図である。

【図10】 図10は、多空間メモリの下での、メモリ モジュール14の構造を説明するための図である。

【図11】 図11は、ある空間ID中の所定の範囲の 要素を削除するというインストラクションを受理した各 -3との間のデータ授受のために利用することができる 50 メモリモジュールにて実行される処理を示すフローチャ

ートである。

【図12】 図12は、削除される要素と、メモリモジュールにて保持している要素の配置との関係を示す図である。

【図13】 図13は、ある空間ID中の所定の範囲の要素を削除するというインストラクションを受理した各メモリモジュールにて実行される処理を示すフローチャートである。

【図14】 図14は、ある空間IDの配列の末尾に要 ド番号から項目値素を追加するというインストラクションを受理した各メ 10 を示す図である。モリモジュールにて実行される処理を示すフローチャー 【図26】 図2トである。

【図15】 図15は、本実施の形態にかかる配列の結合および配列の分割を説明するための図である。

【図16】 図16は、本実施の形態において、空間 I D「10」を有する配列および空間 I D「11」を有する配列、並びに、これらがメモリモジュール中に収容された状態を示す図である

【図17】 図17は、本実施の形態において、配列の 結合により得られた配列、および、各メモリモジュール 20 における空間 I D管理テーブルを示す図である。

【図18】 図18は、本実施の形態において、空間 I D「10」を有する配列を、空間 I D「10」を有する配列と、空間 I D「11」を有する配列に分割する一例を示す図である。

【図19】 図19は、本実施の形態において、配列の 分割により得られた配列、および、各メモリモジュール における空間 I D管理テーブルを示す図である。

【図20】 図20は、本実施の形態かかる、一方のメモリモジュール群から、他のメモリモジュール群へのデ 30ータのパラレルコピーを示す図である。

【図21】 図21は、本実施の形態にかかる変換済み\*

\* フラグの利用を説明するための図である。

【図22】 図22は、本実施の形態にかかる変換済み フラグの利用を説明するための図である。

26

【図23】 図23は、本実施の形態にかかるソート処理の流れを説明するための図である。

【図24】 図24は、本実施の形態にかかるソート処理の流れを説明するための図である。

【図25】 図25は、本実施の形態において、レコード番号から項目値が特定されるまでのデータの参照手順を示す図である

【図26】 図26は、本実施の形態にかかる他のソート処理の流れを説明するための図である。

【図27】 図27は、本実施の形態にかかる検索処理 の流れを説明するための図である。

【図28】 図28は、本実施の形態にかかる検索処理の流れを説明するための図である。

### 【符号の説明】

|   | 1 O   | コンピュータシステム |
|---|-------|------------|
|   | 12    | CPUモジュール   |
| ) | 1 4   | メモリモジュール   |
|   | 16    | 固定記憶装置     |
|   | 18    | 入力装置       |
|   | 2 0   | 表示装置       |
|   | 2 2   | レガシーメモリ    |
|   | 2 4   | バス         |
|   | 2 5   | 制御信号ライン    |
|   | 2 6   | バス         |
|   | 28,30 | スイッチ       |
|   | 3 2   | クロックバッファ   |
| ) | 3 4   | RAMコア      |
|   | 3 6   | MPU        |
|   | 3 8   | I /O       |

【図1】







【図5】

# 図5





【図8】



[図9]



【図10】









【図11】



【図14】







[図18]



【図19】



【図20】

# 図20



【図22】



【図23】



【図24】



【図26】



【図28】



## フロントページの続き

| (51)Int.Cl. <sup>7</sup> |       | 識別記号  | FI      |       | テーマコード (参考) |
|--------------------------|-------|-------|---------|-------|-------------|
| G 0 6 F                  | 13/16 | 5 1 0 | G 0 6 F | 13/16 | 5 1 0 D     |
|                          | 15/16 | 610   |         | 15/16 | 6 1 0 A     |